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本 书 由 计算 机 工程 领域 资深 学 者 编著 ， 涵 盖 了 计算 机 系统 /SoC 
设计 的 许多 重要 研究 内 容 ， 着 眼 于 以 系统 为 中 心 的 设计 空间 理念 ， 从 
基本 概念 和 分 析 技 术 着 手 ， 对 各 种 应 用 和 架构 设计 、 开 发 予以 重点 阅 
述 。 书 中 除了 讲解 计算 机 体系 结构 中 处 理 器 、 内 存 、 互 联 等 要 素 外 ， 
重点 介绍 了 系统 的 定制 化 设计 技术 与 可 重 构 性 设计 技术 ,更 关注 系统 
级 开发 时 关于 面积 、 速 度 、 功 耗 和 可 配置 性 等 权衡 技术 发 展 ， 并 指出 
计算 机 系统 /SoC 设计 面临 的 挑战 。 

本 书 不 仅 可 供 计 算 机 系统 设计 专业 人 员 、SoC 设计 师 及 计算 机 学 
者 阅读 ， 也 可 作为 计算 机 科学 、 计 算 机 工程 及 电子 工程 等 专业 研究 生 
的 参考 书 。 


译 者 序 


随 着 计算 机 与 微 电 子 技术 融合 趋势 日 益 凸 显 ， 以 及 CPU/SoC 设计 技术 快速 
发 展 ， 计 算 机 体系 结构 课程 的 挑战 性 越 来 越 明 显 ， 需 要 专业 人 员 深 入 研究 微 体 系 
结构 ， 也 给 培养 创新 型 计算 机 人 才 带 来 了 极 大 的 挑战 和 机 遇 。 

早 在 几 年 前 ， 拜 读 《Computer System Design: System-On-Chip》， 就 引起 我 们 
共鸣 。 我 们 翻译 组 主 译 人 员 从 事 SoC 研究 设计 开发 近 20 F, “2002 年 中 国 未 来 
十 大 技术 之 一 一 一 SoC 技术 ”© 就 由 主要 译 者 张 志 敏 点 评 ， 并 且 他 一 直 带 领 团队 
不 断 研究 开发 一 系列 SoC， 培 养 了 一 批 芯片 设计 人 才 。 我 们 始终 认为 SoC 能 够 为 
计算 机 学 科 发 展 注 入 新 鲜 活 力 ， 必 将 丰富 计算 机 体系 结构 教学 课件 内 容 ， 利 于 造 
就 一 大 批 优秀 的 计算 机 系统 研究 开发 人 才 。 

原 书 作者 Michael J. Flynn 是 美国 哈佛 大 学 教授 ，1966 年 提出 弗 林 分 类 学 ， 
1995 年 获 哈 利 . 古 德 纪念 奖 ，2009 年 获 贝尔 格 莱 德 大 学 荣誉 博士 。 作 者 多 年 来 
一 直 从 事 计 算 系 统 工程 设计 和 体系 结构 教学 研究 工作 ， 设 计 经 验 丰 富 。 他 编著 的 
原 书 英文 版 内 容 翔实 ， 涵盖 了 计算 机 系统 设计 的 许多 方面 ， 从 基本 概念 和 分 析 技 
术 着 手 ， 就 各 种 应 用 和 架构 的 设计 开发 予以 重点 阐述 ， 对 于 计算 机 专业 师 生 和 系 
统 集 成 芯片 设计 开发 者 而 言 ， 是 一 本 很 好 的 参考 书 。 

本 书 的 翻译 工作 由 范 东 豁 组 织 完成 ， 宋 风 龙 和 孟 海 波 协助 执行 ， 参 与 本 书 前 
WH BRE LAK. Si, Be, eK, EB. PA, WEH, 
张 志 敏 参与 较 多 的 翻译 工作 ， 并 负责 统 稿 、 校 对 、 润 色 等 工作 。 

感谢 机 械 工业 出 版 社 给 我 们 翻译 这 样 一 本 好 书 的 机 会 ， 感 谢 编 辑 为 本 书 出 版 
所 做 的 工作 。 
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计算 机 系统 设计 者 下 一 步 将 更 关注 系统 定制 元 素 ， 以 针对 特定 的 应 用 ， 而 非 
处 理 器 和 存储 器 系统 的 细节 。 这 样 的 设计 者 应 具有 处 理 器 和 其 他 部 件 的 基本 知 
识 ， 但 他 们 设计 成 功 与 否 将 取决 于 他 们 对 系统 的 平衡 能 力 ， 以 及 在 可 优化 成 本 、 
性 能 和 其 他 满足 应 用 需求 属性 方面 的 能 力 。 本 书 将 介绍 计算 机 系统 设计 ， 特 别 是 
SoC 设计 中 的 问题 。 

驾驭 这 样 的 设计 需要 一 系列 知识 ， 如 图 0.1 所 示 。 本 书 第 1 章 对 系统 方法 进 
行 了 简介 绪论 ， 第 2 章 着 眼 于 定义 设计 空间 一 一 面积 、 速 度 、 功 耗 和 可 配置 性 ， 
第 3 ~5 章 提 供 系 统 的 基本 元 素 的 背景 知识 一 一 处 理 器 、 内 存 和 互联 。 后 续 的 章 
节 专 注 于 面向 特定 应 用 程序 和 技术 的 计算 机 系统 定制 : 第 6 章 涵盖 了 定制 和 配置 
的 设计 问题 ， 第 7 章 讨论 了 针对 各 种 应 用 的 系统 级 平衡 技术 ， 将 早期 的 材料 归 类 
在 一 起 研究 ， 第 8 章 提出 系统 设计 和 SoC 设计 未 来 可 能 面 对 的 挑战 。 本 书 所 描述 
的 工具 仍 在 发 展 中 ， 附 录 提 供 了 一 些 工具 概述 。 由 于 工具 不 断 革新 ， 请 经 常 看 看 
公司 的 网 站 : www. soctextbook. com。 此 外 ， 对 教学 有 用 的 材料 ， 如 幻灯 片 和 练习 
的 答案 ， 也 在 准备 中 。 

本 书 涵盖 了 计算 机 系统 设计 的 一 个 特定 的 方法 ， 介 绍 的 基本 概念 和 分 析 技 术 
适用 于 各 种 应 用 和 架构 ， 而 不 是 针对 特定 的 应 用 、 架 构 、 语 言 和 工具 。 本 书 还 包 
括 互 补 处 置 和 其 他 主题 ， 如 电子 系统 级 设计 、 误 入 式 软件 开发 和 系统 级 集成 和 测 
试 。 在 适当 的 地 方 ， 本 书简 短 地 描述 和 引用 这 些 主题 ,更 详细 的 处 置 可 能 包含 在 
未 来 的 版 本 中 或 其 他 书 中 。 

SoC 是 一 个 快速 发 展 的 领域 。 虽 然 专 注 于 基本 的 资料 ， 但 为 完成 本 书 也 简要 
介绍 了 最 新 的 技术 进展 。 当 然 ， 这些 最 新 的 相关 技术 ， 可 到 如 网 站 等 相关 的 信息 
源 找 寻 。 

许多 同事 和 学 生 ， 多 数 来 自 英国 伦敦 帝国 理工 学 院 和 美国 斯 坦 福 大 学 ， 对 本 
书 做 出 了 贡献 。 很 抱歉 ， 难 以 在 这 里 说 出 他 们 所 有 人 的 名 字 。 然 而 ,一 些 人 应 该 
特别 感谢 ，Peter Cheung 从 一 开始 就 与 我 们 合作 ， 他 的 贡献 体现 在 许多 主题 上 ， 
特别 是 第 5 章 ; Tobias Becker, Ray Cheung, Rob Dimond, Scott Guo, Shay Ping 
Seng, David Thomas, Steve Wilton, Alice Yu 和 Chi Wai Yu 等 对 各 章节 提供 了 重 
要 素材 ; Philip Leong 和 Roger Woods 多 次 精读 了 手稿 并 提供 了 许多 改进 建议 ; 也 
从 Jeffrey Arnold, Peter Boehm, Don Bouldin, Geoffrey Brown, Patrick Hung, Se- 
bastian Lopez, Oskar Mencer, Kevin Rudd 和 匿名 审 稿 人 等 获 益 良 多 ; 感谢 Kubi- 
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lay Atasu, Peter Collingbourne, James Huggett、Qiwei Jin, Adrien Le Masle, Pete 


Sedcole 和 Tim Todman 等 提供 的 宝贵 援助 。 
最 后 ， 感 谢 美国 Wiley 出 版 社 的 Cassie Strickland、 美 国 Toppan Best-set 出 版 


社 的 Janet Hronek 对 及 时 完成 本 书 提供 的 帮助 。 





0.1 本 书 所 述 SoC 设计 方案 


CBWA 


CFA 
CGRA 


CISC 
CLB 
CMOS 
CORDIC 
CPI 
CPU 
DCT 
DDR 
DES 
3DES 
DF 
DMA 
DRAM 


i 略 语 


Autonomous Chip， 自 主 芯 片 

Analog to Digital ， 模 - 数 转换 

Advanced Encryption Standard ， 高 级 加 密 标准 

Address Generation ， 地 址 形成 

Arithmetic and Logic Unit， 算 术 逻 辑 单元 

Advanced Microcontroller Bus Architecture ， 先 进 微 控制 器 总 线 架构 
Application -Specific Integrated Circuit， 专 用 集成 电路 
Application -Specific Instruction Processor， 专 用 指令 处 理 器 
Autonomous System-on-Chip， 自 主 片上 系统 

Advanced eXtensible Interface， 先 进 的 可 扩展 接口 

Branch Conditional ， 条 件 转 移 l 

Built-In-Self-Test, Atk AWA 

Block Random Access Memory， 块 随机 存 取 存储 器 

Branch Target Buffer, 分支 目标 缓存 

Computer Aided Design, 计算 机 辅助 设计 

Copy-Back Write Allocate cache， 复 制 回 写 缓存 分 配 
Condition Codes ， 条 件 码 

Color Filter Array， 彩 色 滤 波 阵列 

Coarse-Grained Reconfigurable Architecture， 粗 粒度 可 重 构 体系 结构 
Common Intermediate Format, ， 通 用 中 间 格 式 

Complex Instruction Set Computer， 复 杂 指 令 集 计算 机 
Configurable Logic Block, ， 可 配置 逻辑 块 

Complementary Metal Oxide Semiconductor， 互 补 金 属 氧化 物 半 导体 
COordinate Rotation Digital Computer， 坐 标 旋转 数字 计算 机 
Cycles Per Instruction ， 平 均 指 令 周 期 数 

Central Processing Unit， 中 央 处 理 单元 

Discrete Cosine Transform， 离 散 余 弦 变 换 

Double Data Rate， 双 数据 速率 

Data Encryption Standard， 数 据 加 密 标 准 

Triple Data Encryption Standard， 三 重 数 据 加 密 标准 

Data Fetch， 取 数据 

Direct Memory Access， 直 接 存 储 访问 

Dynamic Random Access Memory， 动 态 随 机 存 取 存储 器 


ICU 


m 略 语 Vil 


Digital Signal Processing ( Processor) ， 数 字 信 和 号 处 理 (器 ) 
Design Target Miss Rates， 设 计 目 标的 命中 率 

Error Correcting Code， 纠 错 码 

embedded Dynamic RandomAccess Memory， 骸 人 入 式 动态 随机 存 取 存 储 器 
Execute, #47 

First In First Out， 先 进 先 出 

Finite Impulse Response， 有 限 冲 激 响 应 

Fan-Out of four, 4 扇 出 

Floating-Point， 浮 点 

Field Programmable Gate Array， 现 场 可 编程 门 阵列 
Floating-Point Register， 浮 点 寄存 器 

Floating-point unit， 浮 点 部 件 

Giga Bytes, a billion (10°) bytes， 吉 字 节 

Graphics InterFace, AGAR 

General-Purpose Processor， 通 用 处 理 器 

General-Purpose Register， 通 用 寄存 器 

Global Positioning System ， 全 球 定 位 系统 

Global System for Mobile communications ， 全 球 移动 通信 系统 
High Definition TeleVision， 高 清晰 度 电视 
High Performance Computing， 高 性 能 计算 机 

Integrated Circuit， 集 成 电路 

Interconnect interface Unit， 互 联接 口 单元 

Instruction Decode， 指 令 译 码 

Instruction fetch， 取 指 

Instruction-Level Parallelism ， 指 令 级 并 行 

Input/Output， 输 入 /输出 

Intellectual Property， 知 识 产 权 

Instruction Register， 指 令 寄 存 器 

Instruction Set Architecture， 指 令 集 体系 结构 

Instruction Set Extension Fabric， 指 令 集 扩展 架构 

Joint Photographic Experts Group (image compression standard) ， 联 合 图 像 专 家 小 组 
Kilo bits, one thousand (10°) bits, F (1024) 位 

Kilo Bytes, one thousand bytes, F (1024) 字 节 

Level 1 (for cache) ,一 级 缓存 

Level 2 (for cache) ， 二 级 缓存 

Logic Element， 人 逻辑 器 件 

Least Recently Used， 最 近 少 使 用 的 

Load/Store， 取 存 


LSI 


SDRAM 
SECDED 
SER 

SIA 
SIMD 
SMT 
SoC 
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Large Scale Integration ， 大 规模 集成 

LookUp Table， 查 找 表格 

Mega bits ，one million (10°) bits ， 兆 位 

Mega Bytes, one million bytes, JKF 

Micro Electro Mechanical System ， 微 机 电 系 统 

Multiple Instruction streams, Multiple Data streams ， 多 指令 多 数据 流 
Million Instructions Per Second ， 每 秒 百 万 指令 

Million Operations Per second， 每 秒 百 万 操作 

Metal Oxide Semiconductor， 金 属 氧 化 物 半 导体 

Motion Picture Experts Group (video compression standard) ， 动 态 图 像 专家 组 
Mean Time Between Faults， 平均 故 障 间 隔 时 间 

MUltipleXor， 多 路 转 接 器 

Network On Chip， 片 上 网 络 

Open Core Protocol ， 开 放 核 心 协议 

Orthogonal Frequency-Division Multiplexing， 正 交 频 分 复 用 
Personal Area Network, 个 人 区 域 网络 

Printed Circuit Board， 印 制 电路 板 

Plastic Leaded Chip Carrier， 塑 料 封装 芯片 载体 

Programmable Read Only Memory， 只 读 存 储 器 

Quarter Common Intermediate Format ， 四 分 之 一 通用 中 间 格 式 
Random Access Memory ， 随 机 访问 存储 处 理 器 

Random， 随 机 

Read-After-Write， 写 后 读 

register bit equivalent， 寄 存 器 位 等 效 

Radio Frequency， 无 线 射 频 

Radio Frequency Identification ， 射 频 识 别 

Reduced Instruction Set Computer， 精 简 指 令 集 计算 机 
Register/Memory, ， 寄 存 器 /存储 器 

Read Only Memory， 只 读 存储 器 

Register Transfer Language， 寄 存 器 传送 语言 

Sum of the Absolute Differences， 绝 对 差异 的 总 和 

Synchronous Dynamic Random Access Memory， 同 步 动 态 随机 存 取 存 储 器 
Single Error Correction, Double Error Detection， 单 纠 错 双 纠 错 
Soft Error Rate， 软 件 错误 率 

Semiconductor Industry Association ，( 美 国 ) 半导体 行业 协会 
Single Instruction stream, Multiple Data streams ， 单 指令 多 数据 流 
Simultaneous MultiThreading， 并 发 多 线程 

System on Chip， 片 上 系统 


WAW 
WB 


缩 略 语 


Static Random Access Memory， 静 态 随 机 访问 存储 器 

Translation Look - Aside Buffer， 旁 路 转换 缓冲 器 

Triple Modular Redundancy， 三 重 模块 元 余 度 

Universal Asynchronous Receiver/Transmitter， 通 用 异步 接收 器 /发 送 器 
Universal Mobile Telecommunications System， 通 用 移动 通信 系统 
UltraViolet ， 紫 外 光 

Virtual Component Interface ， 虚 拟 组 件 接口 

Very Long Instruction Word， 超 长 指令 字 

Very Large Scale Integration， 超 大 规模 集成 

Vector Processing Unit， 向 量 处 理 单 元 

Vector Register， 向 量 寄 存 器 

Virtual Socket Interface Alliance， 虚 拟 接口 联盟 

Write After Read， 读 后 写 

Write After Write， 写 后 写 

Write Back， 回 写 


WTNWA Write-Through cache No Write Allocate， 直 写 无 须 写 分 配 
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1.1 系统 架构 : 概览 


在 过 去 40 年 中 ， 大 家 已 经 看 到 了 随 着 硅 技术 的 巨大 进步 ， 唱 体 管 的 密度 与 
性 能 有 了 极 大 提升 。1966 年 ， 美 国 仙 童 (Fairchild) 半导体 公司 推出 了 一 种 
四 路 双 输 入 与 非 门 ， 它 是 在 芯片 上 集成 了 大 约 10 个 晶体 管 。 而 2008 年 ， 美 国 英 
特 尔 公 司 四 核 安 腾 (Itanium) 处 理 器 上 有 20 亿 个 晶体 管 *!1。 图 1. 1 和 图 1.2 
给 出 了 在 提高 晶体 管 密度 方面 不 断 的 进步 及 设备 成 本 方面 相应 的 减少 。 


单 硅 片 晶体 管 数量 一 一 


晶体 管 数量 





1960 1970 1980 1990 2000 2010 
年份 


图 1.1 不 断 增长 的 硅 片 晶体 管 密度 


本 书 的 目标 在 于 提出 一 种 通过 利用 这 种 超 高 的 晶体 管 密度 来 进行 计算 机 系统 
设计 的 方法 。 在 某 种 程度 上 ， 本 书 是 计算 机 体系 结构 和 设计 研究 的 直接 延伸 ， 当 
然 ， 它 同样 也 是 系统 架构 和 设计 方面 的 研究 材料 。 

KA 50 年 前 ， 一 篇 具有 开创 性 的 文章 《系统 工程 一 大 规模 系统 设计 导 
we)" 问世 。 其 作者 H. H. Goode 和 R. E. Machol 指出 ， 系 统 的 工程 性 观点 是 由 
处 理 复杂 问题 的 需求 所 产生 的 。 同 样 ， 基 于 计算 机 的 工具 极 大 地 增强 了 我 们 处 理 
复杂 设计 问题 的 能 力 。 

一 个 片上 系统 (System-on-Chip, SoC) 架构 是 由 处 理 器 、 存储 器 及 针对 一 个 


2 计算 机 系统 设计 :; 片上 系统 
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”。” 单 晶 体 管 成 本 —— 
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图 1. 2 几 十 年 来 晶体 管 成 本 不 断 下 降 





应 用 领域 的 互联 所 构成 。 日 本 索尼 公司 的 PlayStation 2 ( 见 图 1.3) 的 情感 引擎 
(Emotion Engine) 492 就 是 一 个 这 种 架构 的 简单 例子 。 它 主要 有 两 个 功能 : 
行为 模拟 与 几何 转换 。 此 系统 包含 三 个 最 基本 的 组 成 部 分 : 一 个 精简 指令 集 计 算 
机 (Reduced Instruction Set Computer, RISC) RU Ay EAP BBE, 两 个 由 4 个 并 
行 单 指令 多 数据 流 (Single Instruction Multiple Data, SIMD) 式 '”1 处 理 器 组 成 的 
向 量 处 理 部 件 ( Vector Processing Unit, VPU), VPUO 和 VPU1。 在 接 下 来 几 节 将 
对 这 些 组 件 及 使 用 方法 做 简要 的 介绍 。 


任务 在 于 与 任务 在 于 与 
主 处 理 器 同步 着 色 引 擎 同步 
(行为 模拟 ) (几何 转换 ) 


包含 4 个 SIMD 式 包含 4 个 SIMD 式 着 色 引擎 
Re 并 行 处 理 器 的 处 并 行 处 理 器 的 处 
理 单元 (VPUO) 理 单元 (VPU1) 


仲裁 





图 1.3 一 个 片上 系统 的 高 级 功能 视图 : 索尼 PlayStation 27 情感 引擎 


虽然 本 书 的 焦点 是 系统 ， 但 是 为 了 理解 系统 ， 大 家 首先 必须 理解 组 件 。 所 以 ， 
在 回 到 讨论 系统 架构 问题 之 前 〈 本 章 稍 后 会 讨论 ) ， 先 回顾 一 下 组 成 系统 的 组 件 。 
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1.2 RRA: 处 理 器 、 存 储 器 及 互联 


体系 结构 这 个 词 表示 系统 的 运作 结构 和 用 户 对 系统 的 视图 。 随 着 时 间 的 推 
移 ， 它 已 演变 成 同时 包含 功能 描述 和 硬件 实现 两 方面 内 容 。 系 统 架 构 定义 了 系统 
级 的 构建 模块 ， 如 处 理 器 、 存 储 器 及 它们 之 间 的 互联 。 处 理 器 架构 决定 了 处 理 器 
指令 集 、 相 关 编 程 模型 及 其 详细 实现 。 而 详细 实现 可 能 包含 不 可 见 寄存 器 、 分 支 
预测 电路 和 有 关 算术 逻辑 单元 (Arithmetic Logic Unit, ALU) 的 具体 细节 。 这 种 
处 理 器 的 实现 也 被 称 为 是 微 体系 结构 〈 见 图 1.4). 

系统 设计 师 需要 同时 拥有 关于 系统 组 件 的 程序 员 视角 或 用 户 视角 ， 以 及 关于 
存储 器 、 各 种 专用 处 理 器 和 它们 之 间 的 互联 的 系统 视角 。 接 下 来 将 涉及 以 下 基本 
组 件 : 处 理 器 架构 、 存 储 器 及 总 线 或 互联 架构 。 

图 1.5 给 出 了 一 个 基本 的 SoC 模型 。 这 些 组 件 包括 许 多 互联 到 一 个 或 多 个 存 
储 器 上 的 异 构 处 理 器 ， 以 及 一 个 可 重 构 逻辑 阵列 。 通 常情 况 下 ，SoC 也 包含 用 于 
管理 传 感 数据 和 模 - 数 转换 或 者 用 于 无 线 数据 传输 的 模拟 电路 。 





图 1.4 处 理 器 架构 及 其 实现 图 1.5 一 个 基本 的 SoC 模型 


例如 ， 一 个 智能 手机 的 SoC 需要 在 传统 电话 的 音频 输入 /输出 功能 之 上 提供 
互联 网 接 入 功能 、 用 于 视频 通信 的 多 媒体 设备 、 文 档 处 理 ， 以 及 像 游 戏 、 电 影 这 
样 的 娱乐 功能 等 。 对 于 图 1.5 所 示 的 一 种 可 能 配置 包括 用 几 个 用 于 应 用 处 理 的 
ARM Cortex-A9、 一 个 用 于 媒体 处 理 的 Mali-400MP 图 像 处 理 器 实 及 一 个 Mali-VE 
视频 引 警 。 这 些 系统 组 件 和 定制 电路 将 与 如 摄像 头 、 屏 幕 及 无 线 通信 部 件 这 样 的 
外 设 相 互 作用 。 这 些 元 件 可 以 用 AXI 总 线 (高 级 可 扩展 接口 ) 接 在 一 起 。 
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如 果 所 有 的 元 件 不 能 被 集成 在 单个 芯片 上 ， 最 好 的 实现 方式 可 能 是 将 它们 集 
成 在 一 个 主板 系统 上 ， 但 是 通常 来 说 ， 这 也 被 称 为 SoC。 设计 目标 的 专属 特性 是 
将 板 上 系统 (或 SoC) 与 附带 板 上 存储 的 通用 计算 机 相 区 别 。 设 计 之 初 ， 假 设 应 
用 程序 是 被 设计 者 熟知 且 特 定 的 ， 在 设计 的 过 程 中 ， 就 可 以 对 元 件 进行 选择 、 确 
定 大 小 及 评估 。 这 样 ， 针 对 一 个 目标 应 用 ， 通 过 对 选择 、 参 数 化 和 配置 系统 组 
件 ， 就 能 够 区 分 一 个 系统 架构 师 和 一 个 计算 机 架构 师 。 

本 章 ， 主 要 看 处 理 器 的 高 层次 定义 一 一 程序 员 视 角 或 是 指令 集 架 构 (In- 
struction Set Architecture，ISA) ， 以 及 处 理 器 微 体 系 结构 、 存 储 层次 和 互联 架构 
的 基本 内 容 。 在 后 续 章 节 ， 将 学 习 关 于 这 些 元 件 实现 问题 的 更 多 细节 。 


1.3 ”硬件 和 软件 ， 可 编程 性 与 性 能 


在 SoC 设计 中 一 个 最 基本 的 抉择 就 是 选择 各 系统 组 件 是 用 硬件 还 是 用 软件 实 
现 。 表 1.1 给 出 了 硬件 实现 与 软件 实现 的 优 缺 点 。 
RLI 硬件 实现 与 软件 实现 的 优 缺 点 
缺点 
硬件 | ”速度 快 、 功 耗 低 不 灵活 、 适 应 性 不 强 、 不 便于 构建 和 测试 
软件 | ”灵活 、 适 应 性 强 、 便 于 构建 和 测试 速度 慢 、 功 耗 高 











软件 实现 通常 是 在 一 个 通用 处 理 器 (General Purpose Processor, GPP) Eth 
行 ， 并 且 是 在 运行 时 解释 指令 。 这 种 架构 有 着 良好 的 灵活 性 和 适应 性 ， 而 且 在 不 
同 应 用 之 间 提 供 了 一 种 共享 资源 的 方式 。 然 而 ，ISA 的 软件 实现 与 直接 用 硬件 实 
现 相 应 的 功能 相 比 更 慢 且 更 耗 电 ， 硬 件 实现 没有 取 指 和 译 码 的 开销 。 

大 多 数 软件 开发 者 使 用 高 级 语言 和 工具 来 提高 生产 力 ， 如 程序 开发 环境 、 优 
化 编译 器 及 性 能 分 析 器 。 与 之 相反 ， 应 用 程序 的 直接 硬件 实现 将 生成 定制 专用 集 
成 电路 (Application Specific Integrated Circuit，ASIC) ， 它 所 提供 的 高 性 能 是 以 损 
失 可 编程 性 为 代价 的 ， 同 时 代价 还 包括 灵活 性 、 生 产 力 及 成 本 。 

考虑 到 硬件 和 软件 具有 互补 的 特性 ， 很 多 SoC 设计 都 致力 于 将 这 两 者 各 自 的 
优点 联合 起 来 。 一 种 显而易见 的 方法 就 是 把 性 能 关键 的 部 分 用 硬件 实现 ， 其 余部 
分 则 用 软件 实现 。 例 如 ， 如 果 一 个 占 硬 件 执行 时 间 90% 的 应 用 程序 只 占 源 代码 
10% 的 那 部 分 ， 那 么 把 这 10% 的 部 分 用 硬件 实现 的 话 能 获得 10 倍 的 加 速 。 这 个 
方法 将 用 到 本 书 第 6 章 的 定制 设计 中 。 

GPP 上 定制 ASIC 的 硬件 实现 与 软件 实现 可 以 看 成 是 技术 频谱 上 对 可 编程 性 
与 性 能 进行 权衡 的 两 个 极端 。 有 很 多 技术 都 处 在 这 两 个 极端 之 间 ( 见 图 1.6) 。 
这 当中 最 负 盛 名 的 两 个 当 属 专用 指令 集 处 理 器 (Application Specific Instruction 
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Processor, ASIP) 与 现场 可 编程 门 阵列 (Field Programmable Gate Array, FPGA) 。 

ASIP 是 包含 面向 特定 应 
用 或 领域 的 定制 指令 集 的 处 
理 器 。 那 些 能 在 硬件 上 高 效 
实现 的 定制 指令 通常 会 集成 
到 一 个 包含 基本 指令 集 的 基 
处 理 器 上 。 这 种 实现 方法 通 
常 可 以 用 于 改善 标准 指令 集 
的 传统 实现 方法 ， 它 能 在 完 
成 同样 任务 的 同时 保留 灵活 
性 。 本 书 第 6 章 和 第 7 章 进 
一 步 探讨 了 一 些 涉 及 定制 指 
令 的 问题 。 

FPGA 通常 包含 运算 部 件 低 本 编 程 性 高 
阵列 、 存 储 器 及 它们 的 互联 ， 
并 且 这 三 者 对 应 用 构建 者 来 图 1.6 一 个 简化 的 技术 比较 : 可 编程 性 与 性 能 
说 都 是 可 编程 的 。FPGA 技术 通常 能 提供 一 个 很 好 的 折 中 : 更 加 灵活 的 同时 速度 
比 软件 快 ， 而 且 比 定制 ASIC 硬件 实现 所 需 开发 时 间 更 短 。 就 像 GPP 一 样 ， 它 们 
作为 现成 设备 用 于 编程 而 不 需要 经 过 芯片 制造 。 由 于 缩短 上 市 时 间 的 需求 不 断 上 
升 及 芯片 制造 的 成 本 不 断 增 加 ，FPGA 在 实现 数字 设计 领域 正 变 得 越 来 越 流行 。 

大 多 数 商 用 FPGA 包含 一 个 细 粒 度 逻 辑 块 阵列 ， 每 个 逻辑 块 只 有 几 位 宽 。 它 
也 可 能 包含 如 下 部 分 : 

o 粗 粒 度 可 重 构架 构 (Coarse Grained Reconfigurable Architecture, CGRA). 
它 包 含 能 处 理 位 宽 或 多 位 宽 数 据 的 逻辑 块 ， 这 种 逻辑 块 可 以 形成 数据 通路 的 基石 。 

e 结构 化 ASIC。 它 允许 应 用 构建 者 在 芯片 制造 之 前 自 定义 资源 。 虽 然 它 提 
供 的 性 能 接近 ASIC ， 但 是 芯片 制造 的 需求 仍然 是 个 问题 。 

e 数字 信和 号 处 理 器 (Digital Signal Processor，DSP) 。 这 些 设备 的 组 织 和 指令 
集 针对 数字 信号 处 理应 用 进行 了 优化 。 就 像 微 处 理 器 一 样 ， 它 们 有 固定 的 、 不 可 
重 构 的 硬件 架构 。 

这 些 技术 的 可 编程 性 与 性 能 各 有 优势 ( 见 图 1.6)。 第 6 ~8 章 提供 了 关于 这 
些 技术 的 深层 次 信息 。 


1.4 处 理 器 架构 


通常 情况 下 ， 一 款 处 理 器 或 是 以 它们 的 应 用 或 是 以 它们 的 架构 (或 结构 ) 


峰值 性 能 / (操作 数 /W) 
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作为 特色 ， 如 表 1. 2 和 表 1. 3 所 示 。 对 于 一 个 应 用 ， 其 需求 空间 总 是 很 大 ， 并 且 
也 有 一 系列 的 实现 选项 。 因 此 , -将 一 个 特定 的 架构 与 一 个 特定 的 应 用 联系 起 来 通 
常 是 很 困难 的 。 此 外 ， 有 些 架 构 联 合 了 不 同 的 实现 方法 ， 正 如 从 1.1 节 PlaySta- 
tion 的 例子 所 看 到 的 那样 。 图 像 处 理 器 包含 一 个 四 元 件 矢量 处 理 功 能 部 件 
(Function Unit, FU) SIMD 阵列 。 而 其 他 SoC 的 实现 包含 使 用 超 长 指令 字 (Very 
Long Instruction World, VLIW) 的 多 处 理 器 ， 或 还 包含 超标 量 处 理 器 。 


R12 按照 功能 划分 的 处 理 器 举例 








处 理 器 类 型 应 ”用 
图 像 处 理 单元 (GPU) 三 维 图 形 ; 着 色 、 渐 变 、 纹 理 
DSP 通用 ， 有 时 使 用 无 线 
媒体 处 理 器 视频 与 音频 信号 处 理 
网 络 处 理 器 路 由 、 绥 存 


表 1.3 按照 架构 划分 的 处 理 器 举例 





处 理 器 类 型 架构 /实现 方法 
SIMD 单条 指令 应 用 到 多 功能 部 件 〈 处 理 器 ) 
矢量 处 理 器 (Vector Processor, VP) 单条 指令 应 用 到 多 流水 寄存 器 
VLIW 编译 器 控制 下 每 时 钟 周期 发 射 多 条 指令 
超标 量 硬件 控制 下 每 时 钟 周期 发 射 多 条 指令 


从 程序 员 的 观点 看 ， 持 续 工 作 的 处 理 器 一 次 执行 一 条 指令 。 然 而 ， 很 多 处 理 
器 通过 流水 线 、 多 执行 部 件 及 多 核 技术 ， 以 对 程序 员 透 明 的 方式 ， 具 备 了 同时 执 
行 多 条 指令 的 能 力 。 流 水 线 是 一 种 强大 的 技术 ， 且 被 用 于 几乎 所 有 的 现代 处 理 器 
实现 中 。 而 在 编译 时 刻 或 是 运行 时 刻 提 取 并 利用 代码 固有 并 行 性 的 技术 也 被 广泛 
使 用 。 
利用 程序 并 行 性 是 计算 机 体系 结构 中 最 重要 的 目标 之 一 。 
指令 集 并 行 (Instruction Level Parallelism, ILP) 是 指 在 一 个 程序 中 多 个 操作 
o ILP 能 通过 硬件 、 编 译 器 或 是 操作 系统 技术 来 获得 。 在 循环 这 一 
层 ， 只 要 在 相继 的 循环 迭代 之 间 没 有 数据 相关 ， 连 续 循环 迭代 是 并 行 执行 的 理想 
候选 。 接 着 ， 在 过 程 这 一 层 ， 并 行 性 的 获得 在 很 大 程度 上 取决 于 程序 所 使 用 的 算 
法 。 最 后 ， 多 个 独立 的 程序 也 能 够 并 行 地 执行 。 
不 同 的 计算 机 体系 结构 在 构建 时 都 利用 了 其 固有 的 并 行 性 。 一 般 来 说 ， 一 
计算 机 体系 结构 都 是 由 一 个 或 多 个 能 同时 操作 的 互联 处 理 器 元 件 ( Processor Ele- 
ment，PE) 组 成 的 ， 用 来 解决 单个 整体 性 问题 。 
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1.4.1 处 理 器 : 功能 的 观点 


表 1.4 给 出 了 不 同 的 SoC 处 理 器 模型 实例 ， 包 括 不 同 的 SoC 设计 及 每 种 设计 
中 所 使 用 的 处 理 器 。 对 于 这 些 实例 ， 可 以 把 它们 定性 为 通用 处 理 器 或 是 支持 游戏 
或 信号 处 理应 用 的 专用 处 理 器 。 这 种 功能 化 的 观点 没有 讲述 关于 底层 的 硬件 实 
现 。 事 实 上 ， 几 种 完全 不 同 的 架构 方法 都 能 实现 相同 的 通用 功能 。 以 图 像 功能 为 
例 ， 需 要 具备 着 色 、 演 染 和 纹理 功能 及 可 能 的 视频 功能 。 根 据 这 些 功能 的 相对 重 
要 性 和 所 创建 图 像 的 分 辨 率 ， 能 够 制造 出 完全 不 同 的 架构 。 


R14 不 同 的 SoC 处 理 器 模型 实例 


st 应 用 ro 
Freescale e6000 超标 量 及 矢量 扩展 
ClearSpeed CSX600!59) | 通用 | Proprietary ISA 包含 96 个 处 理 部 件 的 阵列 处 理 器 


通用 
PlayStation 20147,187,237] 通用 包含 两 个 矢量 协 处 理 器 的 流水 线 处 理 器 
ARM VFP11'.3] 通用 可 配置 矢量 协 处 理 器 
1.4.2 处理 器 : 架构 的 观点 


体系 架构 的 角度 至 少 以 一 种 宽泛 的 方式 描述 了 处 理 器 系统 的 实际 实现 。 而 对 
于 复杂 的 架构 方法 ， 需 要 更 多 细节 才能 理解 其 完整 的 实现 。 

简单 顺序 处 理 器 ”顺序 处 理 器 直接 实现 了 顺序 执行 模型 。 这 些 处理 器 顺序 地 
从 指令 流 中 处 理 指令 。 下 一 条 指令 只 有 在 当前 指令 的 所 有 执行 都 完成 且 结 果 被 提 
交 以 后 才能 被 处 理 。 

指令 的 语义 决定 了 动作 序列 必须 产生 特定 结果 ( 见 图 1.7) 。 这 些 动作 能 够 
重奏 ， 但 是 结果 必须 以 特定 的 串 行 顺 序 出 现 。 这 些 动作 包括 以 下 六 项 : 

1) 将 指令 取 到 指令 寄存 器 CIF) ; 

2) 对 指令 的 操作 码 进行 译 码 (ID) ; 

3) 生成 数据 项 的 内 存 地 址 (AC); 

4) 将 操作 数 取 到 可 执行 寄存 器 (DF) ; 

5) 执行 特定 的 操作 (EX); 

6) 将 结果 写 回 到 寄存 器 (WB). 

指令 


Ce Pe ee} He Ee] 


图 1.7 简单 顺序 处 理 器 的 指令 时 序 
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图 1. 8 给 出 了 一 个 简单 顺序 处 理 器 模型 。 在 执行 期 间 ， 每 个 时 钟 周期 里 顺序 
处 理 器 从 指令 流 中 执行 一 条 或 多 条 操作 。 指 令 就 是 一 个 容器 ， 它 代表 了 由 处 理 器 
显 式 管理 的 最 小 执行 包 。 一 条 指令 包含 了 一 个 或 多 个 操作 。 指 令 与 操作 之 间 的 区 
别 对 于 区 分 处 理 器 行为 至 关 重 要 。 标 量 和 超标 量 处 理 器 每 个 周期 消耗 一 条 或 多 条 
指令 ， 而 每 条 指令 只 包含 一 个 单一 的 操作 。 





图 1.8 一 个 简单 顺序 处 理 器 模型 


尽管 概念 上 很 简单 ， 顺 序 地 执行 每 条 指令 却 有 明显 的 性 能 缺陷 : 大 量 的 时 间 
都 花 在 了 重要 执行 上 而 不 是 真正 的 执行 中 。 因 此 ， 直 接 实现 顺序 执行 模型 获得 了 
简易 性 的 同时 产生 了 明显 的 性 能 开销 。 

流水 线 处 理 器 ”流水线 是 一 种 利用 并 行 性 的 简单 方法 ， 这 种 并 行 性 是 基于 同 
时 执行 指令 处 理 的 不 同 阶段 ( 取 值 、 译 码 、 执 行 等 ) 而 来 的 。 流 水 线 技术 假设 
这 些 阶段 在 不 同 的 操作 之 间 是 独立 且 可 重 倒 的。 即 ， 当 这 种 状况 无 法 保持 时 ， 处 
理 器 通过 暂停 后 续 阶 段 来 强制 保持 独立 性 。 因 此 ， 多 个 操作 能 能 够 同时 处 理 ， 每 
个 操作 处 在 指令 处 理 的 不 同 阶段 。 图 1. 9 给 出 了 流水 线 处 理 器 的 指令 时 序 ， 假 设 
这 些 指令 是 相互 独立 的 。 

HeH 


pir He HeH HeH] 


: 84 #2 


ir} Hae for x} +] 


指令 #3 


pie H e Has HA e -ex we | 


Rem 
mm 一 一 了 
图 1.9 流水 线 处 理 器 的 指令 时 序 
对 于 一 个 简单 流水 线 机 器 ， 在 任意 给 定时 刻 ， 每 个 阶段 只 有 一 个 操作 。 因 


此 ,一 个 阶段 正在 执行 取 指 〈 焉 ) ， 一 个 阶段 正在 执行 译 码 (ID) ， 一 个 阶段 正 
在 生成 地 址 (AG ) ， 一 个 阶段 正在 访问 操作 数 (DF)， 一 个 阶段 正在 执行 
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(EX) ， 以 及 一 个 阶段 正在 回 写 结果 (WB). Al 1. 10 给 出 了 一 个 简单 流水 线 处 
理 器 模型 。 最 古板 的 流水 线形 式 一 般 被 称 为 静态 流水 线 ， 它 要 求 处 理 器 经 过 流水 
线 的 所 有 阶段 而 不 管 特定 的 指令 是 否 需 要 这 些 阶段 。 而 动态 流水 线 允 许 根据 指令 
的 要 求 绕 过 一 个 或 多 个 阶段 。 更 复杂 的 动态 流水 线 允 许 指 令 乱 序 完 成 ， 或 乱 序 开 
始 。 乱 序 处 理 器 必须 确保 程序 的 顺序 一 致 性 被 保留 下 来 。 表 1. 5 给 出 了 使 用 流水 
线 “ 软 ” 处 理 器 的 SoC 实例 。 


数据 寄存 器 





图 1. 10 一 个 简单 流水 线 处 理 器 模型 


表 1.5 使 用 流水 线 “ 软 ”处 理 器 的 SoC SCH”? 
( 软 处 理 器 是 由 FPGA 或 是 类 似 的 可 重 构 技术 实现 的 ) 


处 理 器 





D 指 可 配置 的 指令 缓存 与 数据 缓存 。 

@ FPU; Floating Point Unit， 浮 点 部 件 。 

ILP 流水 线 虽然 并 不 必然 导致 在 同样 的 时 间 执 行 多 条 指令 ， 但 是 有 其 他 的 
技术 能 够 做 到 。 这 些 技术 可 以 联合 静态 调度 与 动态 分 析 ， 来 同时 执行 几 个 不 同 操 
作 的 实际 求 值 阶段 ， 这 样 可 能 产生 大 于 每 周期 一 个 操作 的 执行 速率 。 由 于 历史 上 
大 多 数 指令 都 只 包含 一 个 单一 的 操作 ， 这 种 类 型 的 并 行 被 称 为 ILP。 

超标 量 处 理 器 和 VLIW 处 理 器 就 是 利用 ILP 的 两 种 架构 。 它 们 使 用 不 同 的 技 
术 来 获得 大 于 每 周期 一 个 操作 的 执行 速率 。 超 标量 处 理 器 动态 地 检查 指令 流 来 确 
定 哪些 操作 是 独立 且 可 执行 的 。 而 VLIW 处 理 器 依赖 编译 器 来 分 析 可 用 操作 
(OP) ， 并 将 独立 操作 安排 成 宽 指 令 字 。 这 样 就 可 以 并 行 执行 这 些 操作 而 无 需 进 
一 步 分 析 。 
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图 1.11 给 出 了 流水 线 化 的 ILP 处 理 器 的 指令 时 序 ， 它 是 流水 线 化 的 超标 量 处 
理 器 或 是 VLIW 处 理 器 每 周期 执行 两 条 指令 的 指令 时 序 。 在 这 种 情况 下 ， 所 有 的 指 
令 都 是 独立 的 ， 这 样 它们 能 够 并 行 执行 。 下 面 将 会 描述 这 两 种 架构 的 更 多 细节 。 


Ge eae ee 
HEHEHEHE 
指令 #6 


Ei ae} or} 


图 1.11 流水 线 化 的 ILP 处 理 器 的 指令 时 序 





时 间 


(1) 超标 量 处 理 器 “动态 流水 线 通过 其 标量 特性 的 优点 仍然 仅 限 于 每 周期 
执行 单条 操作 。 这 种 限制 能 够 通过 增加 多 个 功能 部 件 及 动态 调度 器 来 避免 ， 从 而 
使 得 每 周期 能 处 理 多 条 指令 ( 见 图 1. 12) 。 这 些 超标 量 处 理 器 025] 能 够 获得 每 周 
期 多 条 指令 的 执行 速率 (通常 限制 为 2， 但 是 根据 应 用 类 型 还 可 能 更 多 ) 。 超 标 
量 处 理 器 最 显著 的 优势 在 于 每 周期 处 理 多 条 指令 对 用 户 来 说 是 透明 的 ， 并 且 还 在 
于 它 能 在 获得 更 好 性 能 的 同时 具备 二 进 制 代码 兼容 性 。 


内 存 / 
二 级 缓存 





图 1.12 超标 量 处 理 器 模型 
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每 个 周期 从 指令 流 中 分 析 多 条 指令 ， 尽 管 这 些 指令 是 并 行 处 理 的 ， 但 是 对 待 它们 
与 在 流水 线 处 理 器 中 是 一 样 的 。 在 指令 发 射 执行 之 前 ， 硬 件 必须 检查 该 指令 与 前 
面 指令 的 依赖 关系 。 

由 于 动态 调度 逻辑 的 复杂 性 ， 高 性 能 超标 量 处 理 器 都 限制 在 每 周期 只 处 理 
4 ~6 条 指令 。 尽 管 超标 量 处 理 器 能 够 从 动态 的 指令 流 中 利用 ILP, 但 是 要 想 利 用 
更 高 级 别 的 并 行 性 需要 其 他 的 方法 。 

(2) VLIW 处 理 器 相 比 于 通过 硬件 的 动态 分 析 来 决定 哪些 指令 能 并 行 执 
行 ，VLIW 处 理 器 (JL 1. 13) 需要 依靠 编译 器 的 动态 分 析 。 





图 1.13 VLIW 处 理 器 模型 


因此 ，VLIW 处 理 器 没有 超标 量 处 理 器 复杂 ， 并且 拥有 提升 性 能 的 潜力 。 
VLIW 处 理 器 从 经 过 静态 调度 且 包 含 多 个 独立 操作 的 指令 中 执行 操作 。 由 于 
VLIW 处 理 器 的 控制 复杂 性 没有 显著 高 于 标量 处 理 器 ， 因 而 其 提高 的 性 能 不 是 因 
为 复杂 性 的 增加 而 换 来 的 结果 。 

VLIW 处 理 器 依赖 编译 器 的 静态 分 析 ， 而 且 没 法 利用 任何 动态 执行 的 特点 。 
对 于 那些 能 够 通过 静态 调度 来 高 效 地 使 用 处 理 器 资源 的 应 用 来 说 ， 一 个 简单 的 
VLIW 实现 就 能 产生 很 高 的 性 能 。 然 而 不 幸 的 是 ， 不 是 所 有 的 应 用 都 能 高 效 地 静 
态 调度 。 很 多 应 用 不 是 完全 按照 编译 器 中 的 代码 调度 器 所 安排 的 路 径 来 执行 的 。 
如 下 两 类 执行 变化 会 影响 已 调度 的 执行 行为 : 

1) 延迟 了 的 操作 结果 ， 其 延迟 不 同 于 编译 器 调度 后 所 设想 的 延迟 。 

2) 例外 或 中 断 ， 使 得 执行 路 径 变 成 完全 不 同 的 和 预料 之 外 的 代码 调度 。 

尽管 暂停 处 理 器 能 够 控制 延迟 了 的 结果 ， 但 是 这 样 会 明显 导致 性 能 损失 。 最 
常见 的 执行 延迟 当 属 数据 缓存 失效 。 很 多 VLIW 处 理 器 通过 避免 数据 缓存 和 设想 
操作 的 最 坏 延 迟 来 避免 所 有 会 产生 延迟 的 情形 。 然 而 ， 当 没有 足够 的 并 行 性 来 隐 
藏 暴露 出 来 的 最 坏 操作 延迟 时 ， 指 令 调度 会 产生 很 多 未 完全 填充 满 的 指令 甚至 是 
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空 指令 ， 进 而 导致 很 差 的 性 能 。 
表 1.6 和 表 1.7 给 出 了 一 些 代表 性 的 超标 量 处 理 器 和 VLIW 处 理 器 SoC 实例 。 
表 1.6 使 用 超标 量 处 理 器 的 SoC 实例 
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Philips Nexperia PNX1700!199) 


SIMD 架构 : 阵列 与 矢量 处 理 器 SIMD 类 的 处 理 器 架构 既 有 阵列 处 理 器 又 
有 矢量 处 理 器 。SIMD 处 理 器 能 够 自然 地 响应 使 用 如 矢量 和 矩阵 这 样 特定 规则 的 
数据 结构 。 从 汇编 级 别 程序 员 的 角度 看 ， 除 了 有 些 操作 是 针对 集合 数据 进行 运算 
以 外 ， 对 SIMD 架构 编程 看 起 来 很 类 似 对 简单 处 理 器 编程 。 由 于 这 样 的 规则 结构 
广泛 使 用 于 科学 编程 中 ，SIMD 处 理 器 在 这 些 环境 中 变 得 越 来 越 成 功 。 

最 流行 的 两 种 SIMD 处 理 器 当 属 阵列 处 理 器 与 矢量 处 理 器 。 在 实现 与 数据 组 
织 方 面 ， 两 者 都 不 相同 。 阵 列 处 理 器 是 由 很 多 互联 的 处 理 器 元 件 组 成 的 ， 每 个 处 
理 器 元 件 都 拥有 其 自己 的 本 地 存储 空间 。 而 矢量 处 理 器 是 由 单个 处 理 器 组 成 的 ， 
它 能 引用 一 个 全 局 的 存储 空间 并 且 拥 有 能 进行 矢量 操作 的 特殊 功能 部 件 。 

阵列 处 理 器 或 是 矢量 处 理 器 能 够 通过 扩展 其 他 常规 机 器 的 指令 集 来 得 到 。 这 
些 扩 展 的 指令 能 够 控制 处 理 器 或 是 某 种 协 处 理 器 中 的 特殊 资源 。 这 样 扩展 的 目的 
是 为 了 提高 特殊 应 用 的 性 能 。 

(1) 阵列 处 理 器 ”阵列 处 理 器 〈 见 图 1.14) 是 由 一 组 并 行 处 理 器 元 件 通 过 
一 个 或 多 个 网 络 连接 起 来 的 ， 而 且 很 可 能 包含 本 地 和 全 局 的 元 件 间 通信 和 控制 通 
信 。 处 理 器 元 件 通过 锁 步 操作 来 响应 控制 处 理 器 (如 SIMD) 的 单 广播 指令 。 每 
个 处 理 器 元 件 (Processor Element, PE) 有 其 私有 的 内 存 ， 而 数据 则 以 一 种 规则 
的 方式 分 配 并 穿 过 元 件 ， 这 种 方式 既 依 赖 数据 的 实际 结构 ， 还 依赖 在 数据 上 所 执 
行 的 运算 。 直 接 访问 全 局 内 存 或 是 另 一 个 处 理 器 元 件 的 内 存 开销 是 很 大 的 ， 所 以 
中 间 值 是 通过 阵列 及 本 地 处 理 器 间 连 接 来 传播 的 。 这 就 需要 数据 能 小 心地 分 配 ， 
使 得 传播 值 的 路 由 能 够 简单 而 规则 。 比 起 支持 处 理 器 元 件 间 复杂 或 是 不 规则 的 数 
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据 路 由 ， 有 时 复制 值 然后 运算 会 更 容易 。 




















通信 方法 〈 如 总 线 ) 
图 1.14 阵列 处 理 器 模型 


由 于 指令 是 广播 的 ， 本 地 处 理 器 元 件 没 办 法 改变 指令 流 的 流动 。 然 而 ， 个 别 
处 理 器 元 件 能 根据 本 地 状态 信息 有 条 件 地 禁用 指令 。 即 ， 当 这 种 状况 发 生 时 ， 这 
样 的 处 理 器 元 件 是 空闲 的 。 实 际 的 指令 流 是 由 一 个 以 上 的 固定 操作 流 组 成 的 。 阵 
列 处 理 器 通常 与 一 个 通用 控制 处 理 器 耦合 在 一 起 。 通 用 处 理 器 既 提供 标量 操作 也 
提供 数组 操作 。 而 数组 操作 会 被 广播 到 阵列 中 的 所 有 处 理 器 元 件 。 这 个 控制 处 理 
器 执行 应 用 的 标量 部 分 、 与 外 界 交 互 ， 并 控制 执行 流 。 而 阵列 处 理 器 则 执行 由 控 
制 处 理 器 所 指定 的 应 用 的 数组 部 分 。 

一 个 能 在 阵列 处 理 器 上 使 用 的 合适 应 用 需 具 有 以 下 几 个 关键 特征 : 大 量 的 具 
有 规则 结构 的 数据 、 均 匀 地 施加 到 许多 或 是 所 有 数据 集 上 的 运算 、 与 运算 和 数据 相 
关 的 简单 而 规则 的 模式 。 求 解 Navier-Stokes 方程 就 是 一 个 具备 这 些 特征 的 应 用 实 
例 ， 然 而 任何 包含 显著 矩阵 运算 的 应 用 都 很 可 能 从 阵列 处 理 器 的 并 发 能 力 中 获 益 。 

表 1.8 给 出 了 基于 阵列 处 理 器 的 SoC 实例 。ClearSpeed 处 理 器 就 是 一 个 面向 
信和 号 处 理应 用 的 阵列 处 理 器 芯片 的 实例 。 


R18 基于 阵列 处 理 器 的 SoC 实例 


每 个 控制 部 件 的 处 理 器 数目 数据 大 小 /bit 


ClearSpeed CSX600!°?! 





Atsana J2211!!74) 





Xelerator X10q!**7! 


(2) 矢量 处 理 器 ”矢量 处 理 器 就 是 个 单一 的 类 似 传统 单一 流 处 理 的 处 理 器 ， 
只 不 过 它 的 某 些 功能 部 件 〈 和 寄存 器 ) 是 对 矢量 进行 操作 的 。 所 谓 矢量 操作 是 
指数 据 值 序列 看 起 来 是 当做 一 个 整体 进行 操作 的 。 这 些 功能 部 件 都 是 深 流水 且 时 
钟 频率 很 高 。 相 比 于 标量 功能 部 件 ， 尽 管 矢量 流水 线 的 延迟 更 高 ， 但 是 快速 输入 
矢量 数据 交付 加 上 高 时 钟 频率 ， 使 得 其 吞吐 量 非常 大 。 
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现代 矢量 处 理 器 要 求 矢 量 明 确 地 加 载 到 特殊 矢量 寄存 器 且 要 存 回 内 存 一 一 基 
于 相似 的 理由 与 现代 标量 处 理 器 的 做 法 一 样 。 矢 量 处 理 器 有 几 个 特点 使 得 它们 拥 
有 很 高 的 性 能 。 一 大 特点 就 是 当 其 在 矢量 寄存 器 中 运算 时 ， 拥 有 能 在 矢量 寄存 器 
与 主 存 之 间 并 发 加 载 和 存储 值 的 能 力 。 这 是 一 个 很 重要 的 特点 ， 由 于 矢量 寄存 器 
的 长 度 限制 ， 这 就 需要 那些 比 寄存 器 长 度 还 长 的 矢量 能 够 分 段 处 理 。 所 谓 分 段 是 
一 种 称 为 露天 采矿 的 技术 (strip mining) 。 而 内 存 访 问 和 运算 如 果 不 能 同时 发 生 
就 会 造成 明显 的 性 能 瓶颈 。 

大 多 数 矢量 处 理 器 都 支持 结果 旁 路 ， 在 这 种 情况 下 称 为 链接 。 即 一 旦 前 面 的 
运算 的 第 一 个 结果 可 用 以 后 ， 允 许 后 续 的 运算 马上 开始 。 因 此 ， 不 需要 等 待 全 部 
矢量 都 处 理 完成 ,后续 运 算 能 够 与 前 面相 互 独立 的 运算 同时 执行 。 连 续 的 运算 能 
够 高 效 地 复合 操作 就 像 它们 是 单条 操作 一 样 ， 这 样 总 的 延迟 就 是 第 一 条 操作 的 延 
迟 加 上 剩 下 操作 的 流水 线 延 迟 和 链接 延迟 ， 而 不 是 无 链接 情况 下 从 头 到 尾 的 开 
销 。 例 如 ， 除 法 能 通过 将 倒数 与 乘 操作 链接 来 进行 综合 。 链 接 通常 适用 于 加 载 操 
作 及 常规 运算 的 结果 。 

典型 的 矢量 处 理 器 配置 (JILE 1.15) 由 一 个 矢量 寄存 器 堆 、 一 个 矢量 加 法 
部 件 、 一 个 矢量 乘法 部 件 及 一 个 矢量 倒数 部 件 (用 于 和 矢量 乘法 部 件 结合 来 进 
行 除法 运算 ) 组 成 。 矢 量 寄存 器 堆 包 含 多 个 矢量 寄存 器 (元件) 。 


指令 缓存 





图 1.15 矢量 处 理 器 模型 


表 1.9 给 出 了 使 用 矢量 寄存 器 的 实例 。IBM 大 型 机 把 矢量 指令 (及 硬件 支 
持 ) 作为 选项 提供 给 特定 用 户 。 
R19 使 用 矢量 处 理 器 的 SoC 实例 


矢量 功能 部 件 


4 


4 (64 位 可 分 成 16 位 ) 
3 (64 位 可 分 成 32 位 ) 
















Freescale e600[100] 
Motorola RSVP[58] 
ARM VFP11[23] 
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多 处 理 器 ”通过 某 种 形式 的 互联 来 共享 结果 ， 多 个 处 理 器 能 够 合作 运行 来 解 
决 一 个 单一 的 问题 。 在 这 种 配置 中 ， 尽 管 每 个 处 理 器 完全 独立 地 运行 ， 但 是 大 多 
数 应 用 在 执行 期 间 需 要 某 种 形式 的 同步 ， 使 得 处 理 期 间 能 够 传递 信息 和 数据 。 由 
于 多 个 处 理 器 共享 存储 且 执 行 单独 的 程序 任务 (MIMDS) ， 这 样 它们 的 实现 会 比 
阵列 处 理 器 复杂 得 多 。 大 多 数 配 置 对 所 有 处 理 器 来 说 都 是 相同 的 ， 尽 管 这 并 不 是 
一 个 必须 要 求 。 表 1. 10 给 出 了 多 处 理 器 与 多 线程 处 理 器 的 SoC 实例 。 


表 1.10 多 处 理 器 与 多 线程 处 理 器 的 SoC 实例 


2 
HDTV 

多 处 理 器 中 的 互联 网 络 在 处 理 器 元 件 间 传递 着 数据 并 同步 独立 执行 流 。 当 处 
理 器 内 存 被 分 配给 所 有 处 理 器 且 只 有 本 地 处 理 器 元 件 能 访问 它 时 ， 所 有 的 数据 共 
享 都 要 明确 地 使 用 消息 来 进行 ， 而 且 所 有 的 同步 也 是 在 消息 系统 中 处 理 的 。 当 处 
理 器 内 存 被 所 有 处 理 器 元 件 共享 时 ， 同 步 是 个 大 问题 。 当 然 ， 可 以 通过 存储 系统 
在 处 理 器 元 件 之 间 用 消息 来 传递 数据 和 信息 ， 但 是 这 样 做 必然 没有 最 高 效 地 使 用 
系统 。 

当 处 理 器 元 件 之 间 的 通信 是 通过 一 个 共享 的 存储 地 址 空间 进行 时 ， 处 理 器 元 
件 之 间 不 管 是 全 局 式 共 享 还 是 分 布 式 共 享 ( 称 为 分 布 式 共享 存储 是 为 了 区 别 于 
分 布 式 存 储 ) ， 都 会 产生 两 个 显著 的 问题 。 第 一 个 问题 就 是 维持 存储 一 致 性 : 
在 内 存 引 用 上 对 程序 员 可 见 的 影响 ， 既 来 自 于 处 理 器 元 件 内 部 还 来 自 不 同 处 理 
器 元 件 之 间 。 这 个 问题 通常 是 通过 硬件 和 软件 技术 的 联合 来 解决 的 。 第 二 个 问 
题 就 是 缓存 相关 性 ， 这 是 个 程序 员 不 可 见 机 制 ， 确 保 所 有 处 理 器 元 件 对 于 给 定 
的 存储 部 件 所 看 到 的 都 是 相同 的 值 。 这 个 问题 通常 是 专门 通过 硬件 技术 来 解 
决 的 。 

多 处 理 器 系统 最 主要 的 特点 就 是 存储 地 址 空间 的 特性 。 如 果 每 个 处 理 器 元 件 
都 有 其 自己 的 地 址 空间 (分布 式 存储 ) ， 那 么 处 理 器 元 件 之 间 唯 一 的 通信 方法 就 
是 通过 消息 传递 。 而 如 果 地 址 空间 是 共享 的 〈 共 享 式 存储 ) ， 那 么 通信 就 可 以 通 
过 存储 系统 进行 。 





© MIMD: Multiple Instruction Stream Multiple Data Stream， 多 指令 流 多 数据 流 。 
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当 把 存储 一 致 性 和 缓存 相关 性 考虑 在 内 时 ， 分 布 式 存储 机 器 的 实现 远 比 共享 
式 存 储 机 器 的 实现 要 容易 。 然 而 ， 对 分 布 式 存储 处 理 器 编程 会 更 加 困难 ， 因 为 应 
用 必须 能 够 利用 消息 传递 这 种 处 理 器 元 件 间 唯一 的 通信 形式 且 不 能 被 其 限制 。 
另 一 方面 ， 尽管 有 维持 一 致 性 和 相关 性 方面 的 问题 ,但 是 对 共享 式 存储 处 理 恬 
进行 编程 时 能 够 利用 任何 与 给 定 通信 要 求 相 适应 的 通信 模式 ， 因 而 也 更 容易 
编程 。 


1.5 ”内存 与 寻 址 


不 同 的 SoC 应 用 对 内 存 的 需求 各 不 相同 。 有 的 情况 下 ， 内 存 结构 能 简单 到 程 
序 完全 驻 留 在 只 读 内 存 (Read Only Memery, ROM) 中 ， 而 数据 则 在 片上 RAM 
中 。 而 另 一 种 情况 下 ， 内 存 系统 可 以 通过 内 存 管 理 及 缓存 层次 来 支持 复杂 的 需要 
片 外 存储 空间 (SoC) 的 操作 系统 。 

为 什么 不 是 简单 地 把 内 存 与 处 理 器 包含 在 芯片 上 呢 ? 这 其 中 有 很 多 妙 处 : 

1) 提高 了 内 存 的 可 达 性 ， 既 改善 了 内 存 的 访问 时 间 ， 又 提高 了 内 存 的 访问 
带宽 。 

2) 减少 了 对 大 缓存 块 的 需求 。 

3) 提高 了 内 存 密集 型 应 用 的 性 能 。 

但 是 这 样 做 也 存在 问题 。 第 一 个 问题 就 是 DRAM 内 存 处 理 技术 不 同 于 标准 
的 微 处 理 器 处 理 技术 ， 而 且 会 导致 在 位 密度 上 有 所 牺牲 。 第 二 个 问题 更 加 严重 ， 
如 果 内 存 被 处 理 器 芯片 所 限制 ， 其 大 小 也 会 相应 地 被 限制 。 这 样 一 来 ， 那 些 对 实 
际 内 存 空 间 需 求 量 非 常 大 的 应 用 就 会 “ 踊 脚 ”了 。 因 此 ， 常 规 的 处 理 器 芯片 模 
型 就 演变 成 〈 见 图 1. 16) 实现 多 个 强大 的 同类 处 理 器 在 其 自己 的 多 片 模块 上 与 
片 外 主 存 共 享 高 达 两 级 或 三 级 缓存 。 





图 1.16 处 理 器 加 片 外 内 存 


从 设计 复杂 性 的 观点 看 ， 它 有 着 成 为 “万 能 ”解决 方案 的 优势 : 一 种 实现 
就 适合 了 所 有 的 应 用 ， 尽 管 它 没 有 肯定 达到 一 样 好 。 所 以 ， 当 大 量 的 设计 工作 都 
需要 这 种 实现 时 ， 产 量 能 够 大 到 足以 证 明成 本 是 可 合理 摊 销 的 。 

对 于 这 种 方法 的 替代 品 也 是 很 明显 的 。 对 于 那些 内 存 大 小 有 界 的 特定 应 用 ， 
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能 够 实现 一 种 内 存 集成 式 的 SoC，; 
如 图 1. 17 所 示 (还 可 以 回想 图 1.3 
所 示 的 结构 ) 。 
一 个 相关 但 又 独立 的 问题 是 ，; 
应 用 需要 虚拟 存储 (把 磁盘 空间 映 
射 到 内 存 ) 吗 ? 或 是 全 部 都 用 实际 
内 存 是 合适 的 吗 ? 下 面 将 介绍 对 虚 
拟 存储 寻 址 的 需求 。 
最 后 ， 内 存 可 以 是 集中 式 的 也 图 1.17 SoC: 处 理 器 与 内 存 
可 以 是 分 布 式 的 。 即 使 在 这 里 ， 尽 
管内 存 是 在 几 个 分 布 式 的 模块 中 实现 的 ， 对 程序 员 来 说 内 存 仍然 可 以 显得 是 单个 
(EPR) 共享 内 存 。 表 1. 11 给 出 了 几 种 SoC 内 存 考 虑 事项 。 


表 1.11 几 种 SoC 内 存 考虑 事项 





片上 大 小 有 限 且 固定 
内 存 位 置 板 上 系统 ， 访 问 慢 ， 带 宽 有 限 
= 实际 寻 址 大 小 有 限 ，0S 简单 
虚拟 寻 址 非常 复杂 ， 需 要 TLB 及 指令 有 序 执行 的 支持 
分 类 〈 按 多 处 理 共享 存储 需要 硬件 支持 

编程 方式 ) 消息 传递 额外 编程 

集中 式 受 限 于 芯片 考量 
分 类 〈 按 实现 方式 ) 可 与 处 理 器 或 其 他 存储 模块 聚合 


存储 系统 是 由 各 个 存储 层次 中 的 物理 存储 元 件 组 成 的 。 这 些 元 件 包 括 那些 由 
指令 集 所 指定 的 〈 寄 存 器 、 主 存 及 磁盘 扇 区 ) ， 以 及 那些 对 用 户 程序 大 都 透明 的 
(缓冲 寄存 器 、 缓 存 及 页 式 虚 存 ) 。 


1.5.1 SoC 内 存 实例 
表 1.12 不 同 SoC 存储 层次 实例 


4KB 指令 缓存 ， 
8KB 指令 缓存 ， 






NetSilicon NET + 400%] 






NetSilicon NS97750185] 
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缓存 大 小 
16KB 指令 缓存 ， 
$ 


K 1. 12 给 出 了 不 同 SoC 存储 层次 实例 ， 展 示 了 很 多 不 同 的 SoC 设计 及 它们 
的 缓存 和 内 存 配置 。 对 SoC 设计 师 来 说 ， 把 RAM 和 ROM 放 在 片上 还 是 片 外 是 
一 个 值得 考虑 的 重要 问题 。 表 1. 13 AW TRA TFB ICH SoC 实例 ， 展 
示 了 各 种 能 入 了 存储 器 宏 单 元 的 SoC 例子 。 


R113 RAT HBA SICA SoC 实例 〈 单 元 类 型 的 讨论 详 见 本 书 第 4 章 ) 
r Ñ 单元 类 型 (典型 ) SoC 用 户 (典型 ) 
Virage Logic SigmaTel/ ARM 


注 : T 代 表 一 位 单元 上 的 晶体 管 数目 。 


1.5.2 Sut: 内 存 架构 


用 户 的 内 存 视图 主要 是 指 对 程序 员 来 说 可 用 的 寻 址 设备 。 这 些 设备 有 些 是 对 
应 用 程序 员 可 用 的 ， 而 有 些 是 对 操作 系统 程序 员 可 用 的 。 虚 拟 存储 使 得 那些 内 存 
需求 比 物理 内 存 还 要 大 的 程序 得 以 运行 ， 并 且 多 个 应 用 程序 执行 时 允许 有 分 开 的 
寻 址 空间 以 便 防 止 未 授权 内 存 访问 。 当 虚拟 寻 址 设备 被 正确 地 实现 和 编程 使 用 
后 ， 内 存 就 能 高 效 而 安全 地 访问 了 。 

虚拟 存储 通常 是 由 一 个 存储 管理 部 件 所 支持 的 。 概 念 上 讲 ， 物 理 内 存 寻 址 是 
由 以 下 连续 的 (至 少 ) 三 步 所 决定 的 : 

1. 应 用 中 产生 一 个 进程 地 址 。 伴 随 着 进程 ID 或 用 户 ID, CENT EMH 
址 。 虚 拟 地 址 = 偏 移 + (程序 ) 基地 址 + 索引 ， 偏 移 是 在 指令 中 指定 的 ， 而 基地 
址 与 索引 的 值 都 在 特定 的 寄存 器 中 。 

2. 由 于 多 个 处 理 器 必须 在 同一 个 内 存 空间 里 合作 ， 所 以 进程 地 址 需要 调整 
并 浮动 。 这 通常 根据 段 表 来 完成 的 。 虚 拟 地 址 的 高 位 用 于 段 表 寻 址 ， 段 表 中 有 进 
Fe (预订 的 ) 基地 址 和 界限 值 ， 这 样 形成 了 系统 地 址 。 系 统 地 址 = 虚拟 地 址 + 
CEE) 基地 址 。 系 统 地 址 必须 小 于 界线 。 

3. 虚拟 与 实际 。 对 很 多 SoC 应 用 〈 以 及 所 有 的 通用 系统 ) 来 说 ， 内 存 空间 
超过 了 (实际) 实现 的 内 存 。 在 这 里 ， 存 储 空间 是 在 磁盘 上 实现 的 ， 且 只 有 那 
些 最 近 使 用 的 区 域 ( 页面) 才 会 放 到 内 存 来 。 这 些 可 用 的 页 面 是 由 页 表 定 位 的 。 





NXP LH7A404!186] 








Motorola RSVP!*8! 
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当 页 数据 从 磁盘 加 载 以 后 ， 其 在 内 存 中 的 位 置 将 会 作为 “实际 ”或 物理 内 存 地 
址 的 高 位 。 而 实际 地 址 的 低位 与 虚拟 地 址 的 相应 的 低位 是 一 样 的 。 

通常 ， 表 〈 段 表 或 页 表 ) 是 在 内 存 中 进行 地 址 转换 的 ， 并 且 转 换 中 必须 使 
用 一 种 称 为 旁 路 转换 缓冲 (Translation Lookaside Buffer, TLB) 的 机 制 来 加 快 转 
换 。TLB 就 是 一 个 简单 的 寄存 器 系统 ， 通 常 是 由 64 ~ 256 项 组 成 的 ， 保 存 着 用 于 
重用 的 最 近 地 址 转换 。 只 有 少量 的 .( 散 列 的 ) 虚 地 址 位 用 于 TLB 寻 址 。TLB 项 
中 既 有 实际 地 址 也 有 完整 的 虚 地 址 (及 其 也) 。 如 果 虚 地 址 匹配 了 ，TLB 中 的 实 
际 地 址 就 可 用 了 。 否 则 ， 就 出 现 了 TLB 失效 事件 ， 然 后 就 必须 进行 一 个 完整 的 
址 转换 了 ( 见 图 1.18)。 





图 1.18 包含 TLB 旁 路 的 虚实 地 址 映射 


1.5.3 SoC 操作 系统 内 存 


操作 系统 及 其 内 存 管理 功能 是 涉及 SoC 设计 的 关键 的 抉择 (或 要 求 ) 之 一 。 
设计 师 的 主要 兴趣 在 于 对 虚 存 的 需求 。 如 果 系 统 受 限于 实际 内 存 (物理 寻 址 的 ， 
而 不 是 虚拟 寻 址 的 ) 且 内 存 大 小 只 有 数 十 兆 字 节 ， 那 么 系统 可 以 实现 成 片上 
(完全 片上 内 存 ) 真实 系统 。 而 虚拟 存储 需要 复杂 的 存储 管理 部 件 ， 通 常 较 慢 而 
且 明显 更 贵 。 表 1. 14 给 出 了 SoC 设计 中 的 操作 系统 ， 展 示 了 一 些 当 前 的 SoC 设 
计 及 其 操作 系统 。 
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321.14 SoC 设计 中 的 操作 系统 


r Ñ 
开源 的 
美国 风 河 (Wind River) 公司 


公司 
美国 微软 (Microsoft) 公司 
INF. 


美国 明 导 (Mentor Graphics) 公司 


当然 ， 快 速 的 实际 内 存 设计 伴随 功能 上 的 代价 。 用 户 只 能 以 有 限 的 方式 来 创 
建新 的 进程 及 扩展 系统 应 用 基础 。 
















VxWorks (RTOS) [254] 





Windows CE 






Nucleus (RTOS) [75] 
MQK (RTOS) [83] 
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SoC 技术 通常 依赖 各 种 预先 设计 好 的 电路 模块 ( 即 IPS 块 ) 的 互联 来 形成 一 
个 完整 的 并 能 集成 在 单个 芯片 上 的 系统 。 通 过 这 种 方式 ,设计 任务 从 电路 级 上 升 
到 系统 级 。 此 时 所 使 用 的 互联 方法 就 会 成 为 系统 级 性 能 与 成 品 可 靠 性 所 关注 的 重 
点 。 设 计 良 好 的 互联 方案 应 具备 有 力 而 高 效 的 通信 协议 ， 并 明确 地 定义 成 发 布 标 
准 。 这 样 不 同 组 织 、 不 同人 所 设计 的 IP 块 之 间 就 能 方便 地 互通 而 且 能 够 促进 IP 
块 重用 。 它 应 能 在 不 同 模块 之 间 能 提供 高 效 的 通信 以 获得 最 大 的 并 行程 度 。 

SoC 互联 方法 主要 分 为 两 类 一 一 总 线 与 片上 网 络 ， 如 图 1. 19 和 图 1. 20 所 示 。 





图 1.19 SoC 系统 级 互联 : 基于 总 线 的 方法 


© IP; Intellectual Property， 知 识 产权 。 
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路 由 逻辑 





yt 








图 1.20 SoC 系统 级 互联 : 片上 网 络 方法 


1.6.1 基于 总 线 方法 


在 基于 总 线 的 方法 中 ，IP 块 设计 成 符合 已 发 布 的 总 线 标准 (如 英国 ARM 公 
FJR AMBAO” ag E&E IBM 公司 的 CoreConnect!™!) 。 模 块 之 间 的 通信 和 是 通过 
物理 互联 的 地 址 、 数 据 及 控制 总 线 信号 的 共享 来 获得 的 。 这 是 SoC 系统 级 互联 中 
常见 的 一 种 方法 。 通 常 ， 系 统 会 通过 层次 化 样式 来 使 用 两 个 或 更 多 的 总 线 。 为 了 
优化 系统 级 的 性 能 与 开销 ， 最 靠近 CPU 的 总 线 具 有 最 高 的 带宽 ， 而 离 CPU 最 远 
的 总 线 有 着 最 低 的 带宽 。 


1.6.2 片上 网 络 方法 


片上 网 络 系统 是 由 开关 阵列 组 成 的 ， 这 些 开关 要 么 像 交 叉 开关 和 矩阵 那样 动态 
地 开关 ， 要 么 像 网 格 网 络 那样 静态 地 开关 。 

交叉 开关 矩阵 方法 使 用 异步 通道 来 连接 同步 的 能 以 不 同时 钟 频率 运作 的 模 
块 。 这 种 方法 相 比 于 基于 总 线 的 系统 有 着 更 高 的 吞吐 量 ， 同 时 也 让 系统 与 多 时 钟 
域 的 集成 更 加 容易 。 


© AMBA: Advanced Microcontroller Bus Architecture ， 高 级 微 控 制 器 总 线 架 构 。 
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在 简单 的 静态 开关 网 络 (SLA 1. 20) 中 ， 每 个 结 点 都 包含 形成 核心 的 处 理 
逻辑 及 其 自己 的 路 由 逻辑 。 互 联 方案 是 基于 一 个 二 维 的 网 格 拓扑 。 开 关 之 间 的 所 
有 通信 是 通过 数据 包 进 行 的 ， 而 且 是 通过 各 自 结 点 内 部 的 路 由 接口 电路 来 路 由 
的 。 由 于 开关 之 间 的 互联 有 着 固定 的 距离 ， 就 大 大 减少 了 如 导线 延迟 及 串扰 噪声 
这 样 的 互联 相关 问题 。 表 1. 15 给 出 了 不 同 SoC 的 互联 模型 实例 。 


R115 不 同 SoC 的 互联 模型 实例 











SoC 应 用 互联 类 型 
ClearSpeed CSX600059] 高 性 能 计算 ClearConnect 总 线 
NetSilicon NET + 40!!841 网 络 定制 总 线 
NXP LX7A404[186] 网 络 AMBA 总 线 
Intel PXA27x! 1321 移动 /无 线 PXBus 


Matsushita i-Platform! 6] 媒体 内 联 总 线 
Emulex InSpeed SoC320[130] 开关 交叉 开关 


MultiNoc!'72! 多 处 理 系统 片上 网 络 


1.7 SoC 设计 方法 


为 了 有 效 且 高 效 地 完成 设计 ， 和 措 清 需 求 与 规范 、 在 设计 的 不 同 阶段 进行 迭代 
是 设计 过 程 中 两 个 重要 的 思想 。 


1.7.1 需求 与 规范 


需求 与 规范 是 任何 系统 设计 情形 中 基本 的 概念 。 在 设计 开始 前 两 者 都 必须 彻 
底 理解 清楚 。 在 设计 过 程 开 始 和 结束 时 它们 很 有 用 : 在 开始 时 ， 用 于 阐明 需要 获 
得 什么 ; 在 结束 时 ， 作 为 参考 来 对 完整 的 设计 进行 评价 。 

系统 需求 大 部 分 是 外 部 生成 的 系统 准则 。 它 们 可 能 来 自 于 竞争 、 销 售 观点 、 
客户 需求 、 产 品 盘 利 分 析 或 是 以 上 的 综合 。 系 统 需求 很 少 是 简洁 的 或 是 明确 的 。 
事实 上 ， 需 求 经 常 还 可 能 是 不 现实 的 :“ 我 要 它 快 ,我 要 它 便宜 ， 我 立刻 就 
Be!” 

小 心地 分 析 需 求 表 达 ， 并 花 足 够 的 时 间 了 解 市 场 情形 对 设计 师 来 说 很 重要 ，. 
这 样 才能 判定 出 需求 所 表达 的 所 有 因素 及 这 些 因素 所 暗示 的 优先 级 。 设 计 师 在 需 
求 判定 中 考虑 的 一 些 因素 : 

。 与 原先 设计 或 是 已 发 布 标准 的 兼容 性 ; 
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。 原先 设计 的 重用 ; 

。 客户 需求 、 投 诉 ; 

。 销售 报告 ; 

。 成 本 分 析 ; 

。 竞争 设备 分 析 ; 

。 原先 产品 或 是 竞争 产品 的 问题 报告 (可 靠 性 ) 。 

设计 师 也 可 以 基于 一 些 在 类 似 系统 环境 还 未 使 用 过 的 新 技术 、 新 思想 或 是 新 
材料 来 引进 新 需求 。 

系统 规范 是 目标 系统 设计 的 量化 与 优先 准则 。 设 计 师 获得 需求 后 必须 形成 
最 终 系统 的 简洁 而 明确 的 说 明 集 。 设 计 师 可 能 不 知道 最 终 系统 是 什么 样子 的 ， 
但 是 通常 脑 中 会 有 个 “稻草 人 ”的 设计 ， 它 似乎 可 提供 符合 规范 的 可 行 框架 。 
在 任何 有 效 设 计 过 程 中 ， 如 果 最 终 设计 明显 像 稻草 人 设计 的 话 着 实 会 令 人 大 吃 
一 惊 。 

规范 并 没有 完成 设计 过 程 的 任何 部 分 ， 它 只 是 对 过 程 进 行 了 初始 化 。 现 在 就 
可 以 开始 组 件 和 方法 选择 、 蔡 代 研 究 及 系统 成 分 的 优化 了 。 


1.7.2 设计 迭代 


设计 总 是 一 个 迭代 的 过 程 。 所 以 ， 如 何 开始 第 一 步 最 初 的 设计 是 一 个 很 明显 
的 问题 。 正 是 通过 这 最 初 的 设计 来 按照 设计 准则 进行 迭代 和 优化 。 为 了 我 们 的 目 
by, 定义 了 几 种 基于 设计 阶段 的 设计 类 型 。 

初始 设计 ”在 其 他 性 能 和 成 本 准则 还 没有 考虑 的 时 候 ， 这 是 用 来 展示 符合 关 
键 需求 的 第 一 个 设计 。 例 如 ， 处 理 器 、 存 储 器 或 是 输入 /输出 (1/0) MER 
十 上 符合 优先 级 高 的 实时 性 约束 。 重 要 组 件 及 其 参数 需要 精心 选择 和 分 析 ， 以 便 
对 所 期 望 的 理想 性 能 和 成 本 有 个 好 的 认识 。 理 想 化 的 并 不 意味 着 就 是 不 切实 际 
的 ， 而 是 指 所 期 望 的 使 用 和 运算 面积 或 是 数据 带宽 容量 的 简化 模型 。 它 通常 是 个 
简单 的 线性 性 能 模型 ， 如 处 理 器 所 期 望 的 每 秒 百 万 条 指令 (Million Instructions 
Per Second，MIPS) 速率 。 

优化 设计 一 旦 基本 性 能 (或 面积 ) 需求 符合 要 求 且 基本 功能 确保 了 以 后 ， 
目标 就 变 成 最 小 化 成 本 (面积 ) 及 功 耗 或 是 完成 设计 所 需 的 设计 工作 量 。 接 着 
就 是 设计 过 程 中 的 迭代 步骤 。 设 计 过 程 第 一 步 是 使 用 高 保 真 工具 (模拟 、 实 验 
布局 等 ) 来 确保 初始 设计 确实 满足 了 设计 需求 与 规范 。 后 续 步 又 是 根据 设计 准 
则 精练 、 完 成 并 改善 设计 。 

图 1.21, 给 出 了 SoC 初始 设计 过 程 。 这 个 设计 在 细节 上 足以 创建 出 设计 的 组 
件 视图 及 对 组 件 期 望 性 能 的 相应 推测 。 在 这 一 步 ， 这 个 推测 必然 是 简化 了 的 且 参 
考 于 理想 化 的 组 件 视 图 ( 见 图 1. 22)。 
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1. 了 解 功能 、 成 本 及 实时 要 求 。 
2. 确认 设计 必须 要 符合 的 关键 需求 。 
SAn EREE, 给 处 理 器 、 内 存 及 互联 组 件 的 选择 确定 优先 级 。 


4. 评估 关键 需求 是 否 已 满足 
5. 如 果 是 ， 那么 初始 设计 已 完 
6. 如 果 不 是 ， HLA OAL, 再 回 到 第 3 步 。 





图 1.21 SoC 初始 设计 过 程 


理想 存储 器 
(访问 时 间 固 定 ) 
理想 互联 
(访问 时 间 固 定 并 且 带 宽 足够 ) 












n 个 根据 功能 进行 选择 的 理想 处 理 器 (P) 


图 1.22 理想 SoC 组 件 


系统 性 能 是 由 组 件 的 最 小 容量 所 限制 的 。 其 他 组 件 通 常 仅 是 在 关键 组 件 上 呈 
现 一 个 延迟 来 进行 建 模 。 在 一 个 好 的 设计 中 ， 限 制 系统 性 能 的 组 件 才 是 最 昂贵 
组 件 。 系 统 处 理事 务 的 能 力 应 该 紧 跟 限制 组 件 的 能 力 。 通 常 ， 这 个 限制 组 件 就 是 
处 理 器 或 存储 器 复合 设备 。 

通常 ， 设 计 要 么 是 由 中 一 个 使 得 功能 和 成 本 变 得 很 重要 的 特定 实时 需求 ; 要 
么 是 由 @ 成 本 -性 能 约束 下 的 功能 或 吞吐 量 来 驱动 的 。 在 情况 四 中 ， 实 时 约束 是 
根据 LO 考虑 所 提出 的 ， 处 理 器 -存储 器 -互联 系统 必须 符合 要 求 。LO 系统 决定 
了 性 能 ， 系 统 的 剩余 过 量 容量 通常 用 于 给 系统 增加 功能 。 在 情况 @ 中 ， 目 标 在 于 
最 小 化 成 本 的 同时 提高 任务 吞吐 量 。 吞 吐 量 是 由 受到 最 大 约束 的 组 件 所 限制 的 ， 
所 以 设计 师 必须 充分 了 解 折 中 点 。 在 这 些 设计 中 这 样 做 更 具 灵 活性 ， 而 且 相 应 地 
在 决定 最 终 设计 方面 更 有 选择 性 。 

本 书 的 目标 在 于 通过 以 下 内 容 来 提供 用 于 决定 最 初 设计 的 方法 : 

(a) 描述 组 件 范围 一 一 处 理 器 、 存 储 器 及 互联 ， 可 用 于 SoC 构建 ; 

(b) 提供 各 种 应 用 领域 需求 的 实例 ， 如 数据 压缩 和 加 密 ; 

Co) 阐明 初始 设计 或 报告 实现 如 何 能 符合 特定 需求 。 
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之 后 将 阐释 这 种 方法 ， 本 书 第 3 ~ 5 章 通过 组 件 成 分 来 涉及 (a) 部分， 而 
在 本 书 第 6 章 涉及 系统 配置 与 定制 方面 的 技术 。 

正如 原先 所 提 到 的 那样 ， 设 计 师 必须 优化 处 理 和 存储 方面 的 各 个 组 件 。 这 种 
优化 过 程 需要 大 量 的 模拟 。 而 通过 相关 网 站 来 提供 基本 的 模拟 工具 。 


1.8 系统 架构 及 其 复杂 性 


处 理 器 架构 与 系统 架构 的 基本 不 同 点 在 于 系统 增加 了 另外 一 层 复杂 性 ， 并 且 
这 些 系统 复杂 性 限制 了 成 本 节约 。 历 史上 ， 计算 机 的 概念 就 是 单个 处 理 器 加 上 内 
存 。 如 果 这 种 概念 一 直 不 变 ( 还 在 板 卡 的 限度 内 ) ， 将 处 理 器 实现 在 一 个 或 多 个 
硅 片 上 都 没有 改变 设计 复杂 性 。 而 一 旦 芯片 密度 允许 标量 处 理 器 装 在 一 个 芯片 
E, 那么 复杂 性 问题 就 改变 了 。 

假设 需要 100 000 个 晶体 管 及 一 个 小 一 级 缓存 来 实现 一 个 32 位 流水 线 处 理 
器 ， 这 里 称 其 设计 复杂 性 大 小 为 一 个 处 理 器 单元 。 

如 果 需 要 实现 100 000 个 晶体 管 组 成 的 处 理 器 ， 增 加 的 片上 晶体 管 密度 不 会 
很 影响 设计 复杂 性 。 每 块 芯片 上 有 更 多 晶体 管 时 ， 在 增加 芯片 复杂 性 的 同时 ， 也 
简化 了 组 成 处 理 器 的 多 个 芯片 之 间 的 互联 问题 。 一 旦 将 单元 处 理 器 实现 在 单个 芯 
片上 ， 设 计 复杂 性 问题 就 改变 了 。 而 在 这 之 后 随 着 晶体 管 密度 显著 地 增加 ， 也 会 
有 很 多 显而易见 的 处 理 器 延伸 策略 来 改善 性 能 : 

1) 增加 缓存 。 在 这 里 增加 缓存 存储 及 二 级 缓存 ， 因 为 随 着 缓存 变 大 ， 访 问 
时 间 就 变 慢 了 。 

2) 更 高 级 处 理 器 。 可 以 实现 超标 量 处 理 器 或 是 VLIW 处 理 器 ， 这 样 每 个 周 
期 就 可 以 执行 多 条 指令 。 此 外 ， 可 以 加 速 那 些 影响 关键 路 径 延 迟 的 部 件 ， 尤 其 是 
浮 点 执行 时 间 。 10 000.0 

3) 多 处 理 器 。 可 以 实 
现 多 处 理 器 (超标 量 ) 及 相 i 
关 多 级 缓存 。 这 就 使 我 们 的 
限制 只 有 内 存 访问 时 间 及 其 
带宽 了 。 

这 些 做 法 造成 的 结果 就 
是 设计 复杂 性 明显 更 大 了 1.0 上 - 
( 见 图 1.23 ) 。 我 们 的 高 级 处 
理 器 能 有 数 百 万 晶体 管 而 不 lg80 1985 1990 1995 2000 2005 2010 
Æ 100 000 晶体 管 级 的 处 理 年 份 
器 。 多 级 缓存 也 复杂 了 ， 这 图 1.23 设计 复杂 性 


. 100.0 


多 处 理 器 ，SoC 


处 理 器 晶体 管 数量 /107 
5 
© 
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是 为 了 协调 (同步 ) 多 个 处 理 器 的 需要 ， 因 为 这 些 处 理 器 要 求 内 存 内 容 是 一 致 的 。 

为 了 管理 这 些 复杂 性 ， 重 用 是 一 种 显而易见 的 方法 。 所 以 ， 相 比 于 一 个 全 新 
的 更 高 级 的 单个 处 理 器 ， 在 一 个 芯片 上 重用 几 个 简单 处 理 器 设计 会 更 好 。 如 果 能 
够 选择 特定 的 处 理 器 设计 来 适应 应 用 的 特殊 部 分 ， 上 述 方法 就 非常 正确 了 。 为 了 
让 这 种 方法 起 作用 ， 也 需要 有 力 的 互联 机 制 来 访问 各 种 处 理 器 与 内 存 。 

所 以 ， 当 应 用 确定 后 ，SoC 构建 包括 以 下 四 方面 : 

1) 多 个 (通常 是 ) 异 构 的 处 理 器 ， 每 个 专门 为 应 用 的 特定 部 分 而 工作 。 

2) 用 于 部 分 程序 存储 的 主 存 (通常 ) 外 加 ROM。 

3) 相对 简单 的 小 型 (单一 级 别 ) 缓存 结构 或 是 与 每 个 处 理 器 都 相关 的 缓冲 器 。 

4) 用 于 通信 的 总 线 或 开关 机 制 。 

尽管 SoC 构建 方法 在 技术 上 很 有 吸引 力 ， 但 是 它 存在 经 济 上 的 限制 和 影响 。 
考虑 到 处 理 器 及 其 互联 的 复杂 性 ， 如 果 将 实现 的 有 用 性 局 限于 特定 应 用 的 话 ， 要 
么 (1) 确保 这 个 产品 能 有 很 大 的 市 场 ; 要 么 (2) 通过 设计 重用 或 是 相似 技术 
找到 能 减少 设计 成 本 的 方法 。 


1.9 SoC 产品 经 济 及 影响 


1.9.1 影响 产品 成 本 的 因素 


产品 的 基本 成 本 与 收益 取决 于 很 多 因素 : 技术 需求 、 成 本 、 市 场 大 小 及 产品 
在 未 来 产品 市 场 的 影响 力 。 在 生产 成 本 之 外 还 有 些 其 他 成 本 问题 。 
成 本 包括 固定 成 本 与 可 变 成 本 ， 如 图 1. 24 所 示 。 事 实 上 ， 工 程 成 本 通常 是 
最 大 的 固定 成 本 ， 并 且 其 在 通过 销售 获得 收入 之 前 就 得 开销 〈 见 图 1. 25 ) 。 
固定 成 本 可 变 成 本 


制造 成 本 





图 1.24 项 目 成 本 组 成 
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固定 设备 





图 1.25 工程 (开发 ) 成 本 


在 生产 的 第 一 个 产品 完成 之 前 ， 设 计 一 个 新 芯片 无 论 如 何 都 需要 12 ~30 个 
月 的 开发 工作 ， 这 还 要 取决 于 其 复杂 性 。 即 使 是 一 个 中 等 规模 的 项 目 也 需要 多 达 
30 位 甚至 更 多 的 软 硬 件 工程 师 、CAD 设计 与 辅助 人 员 。 例 如 ， 一 篇 论文 中 写 道 
日 本 索尼 公司 的 情感 引擎 项 目 中 就 有 22 个 专家 。 然 而 ， 他 们 的 薪水 及 间 
接 成 本 只 代表 了 总 开发 成 本 的 一 小 部 分 。 

非 工程 固定 成 本 包括 制造 启动 成 本 、 库 存 成 本 、 初 期 市 场 与 销售 成 本 及 行政 
费用 。 市 场 成 本 包括 各 种 显而易见 的 事项 ， 如 市 场 调研 、 市 场 战略 规划 、 定 价 研 
究 、 竞 争 分 析 等 ， 当 然 还 有 销售 计划 与 广告 成 本 。 一 般 行 政 (General and Ad- 
ministrative, G&A) “费用 ”的 概念 包括 成 比例 的 “前 台 ” 份 额 及 其 他 成 本 ， 而 
“前 台 ” 是 指 行政 管理 部 门 、 人 事 部 门 (人力 资 源 ) 、 财 务 部 门 。 

其 后 ， 在 生产 过 程 的 开始 阶段 ， 部 件 费用 仍然 很 高 。 边 际 生产 成 本 只 有 在 生 
产 大 量 部 件 之 后 才 会 接近 最 终 的 制造 成 本 。 

再 之 后 ， 产 品 部 件 制造 成 本 会 逐渐 接近 最 终 的 制造 成 本 。 在 此 期 间 ， 仍 然 需 
要 持续 不 断 的 开发 工作 来 延长 产品 周期 并 拓宽 其 市 场 适应 性 。 

所 生产 的 产品 将 会 产生 利润 吗 ? 从 原先 的 讨论 中 很 容易 就 可 看 出 成 本 是 如 何 
地 敏感 于 产品 周期 及 产品 数量 的 。 如 果 市 场 规律 或 是 市 场 竞争 相当 激烈 并 催生 性 
能 扩充 的 竞争 系统 的 话 ， 产 品 周期 就 会 缩短 并 导致 所 交付 的 产品 少 于 预期 。 这 样 
一 来 就 会 导致 灾难 性 的 结果 ， 即 使 最 终 的 生产 成 本 能 控制 住 。 因 为 将 没有 足够 的 
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产品 来 均 摊 固 定 成 本 以 确保 盈利 。 而 另 一 方面 ， 如 果 竞 争 不 激烈 ， 那 么 第 二 代 产 
品 的 开发 团队 就 能 够 成 功 地 强化 产品 并 维系 其 市 场 影响 力 ， 然 后 产品 就 能 成 为 公 
司 的 家 底 宝 贝 之 一 ， 并 给 设计 者 和 股东 带 来 名 声 和 微笑 。 


1.9.2 给 产品 经 济 和 技术 复杂 性 建 模 : SoC 课程 


为 了 全 盘 考 虑 这 些 成 本 ， 来 考量 一 个 通用 的 模型 一 -产品 平均 单位 成 本 

(这 区 别 于 其 最 终生 产 成 本 ) : 
单位 成 本 = (项 目 成 本 )/( 单 位 数 ) 

项 目 成 本 仅 是 所 有 固定 成 本 与 可 变 成 本 的 总 和 。 用 一 个 常量 K 来 表示 固定 
成 本 。 可 变 成 本 为 K,xn， 其 中 是 单位 数 。 然 而 ， 工 程 成 本 、 销 售 成 本 及 市 场 
成 本 与 相关 却 必然 不 是 线性 的 。 

那么 用 这 样 一 项 来 表示 这 种 效果 : 0.1 RA K FFB n 缓慢 地 增加 它 它 ， 如 
Vn。 这 样 得 到 

产品 成 本 = K+ 0.1 XK,x/n+ K,xn (1.1) 

那么 ,用 式 (1.1) 来 说 明 产 品 设计 中 先进 技术 的 影响 。 将 一 个 1995 年 完成 
的 设计 与 一 个 2005 年 的 产品 成 本 更 低 的 复杂 设计 来 比较 。 将 K 固 定 ， 如 图 1. 26 所 
示 ，1995 年 随 着 产品 产量 n 4.0 —= 
增加 ， 单 位 成 本 获得 了 预期 
的 减少 。 但 是 该 图 也 显示 出 
如 果 扩 大 固定 成 本 (更 复杂 
的 设计 ) 10 倍 ， 即 使 将 单 
位 成 本 K, 削减 相同 的 量 ， 
2005 年 的 单位 产品 成 本 直到 
达到 很 大 的 产量 时 仍旧 很 
高 。 这 种 现象 对 市 场 巨 大 的 
“通用 ” 处 理 器 设计 来 说 或 "ai ene 000 100 000 
许 不 是 一 个 麻烦 ， 但 对 面向 单位 数 
特殊 应 用 而 产量 有 限 的 SoC pa 96 1995 年 与 2005 年 产品 对 单位 成 本 的 影响 
设计 来 说 就 会 成 为 一 个 挑 
战 。 对 于 特殊 应 用 来 说 ， 越 有 针对 性 的 设计 就 越 高 效 ， 而 这 是 以 牺牲 通用 性 为 代 
价 的 ， 当 然 也 就 会 影响 产量 。 


1.10 应 对 设计 复杂 性 


随 着 设计 成 本 与 复杂 性 增加 ， 物 理 产品 的 设计 最 优化 与 设计 成 本 之 间 存 在 一 





单位 成 本 
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个 基本 的 折 中 ， 如 图 1. 27 所 示 。 这 个 平衡 点 取决 于 n， 即 预期 要 生产 的 单位 数 。 
针对 设计 生产 力 问 题 存在 着 好 几 种 处 理 方法 。 最 基本 的 方法 就 是 购买 预先 设计 的 
组 件 及 利用 可 重 构 设备 。 


设计 时 间 基本 
与 工作 量 物理 折 中 


A 


平衡 点 取决 于 单位 数 n 
图 1.27 设计 工作 量 必须 与 产量 平衡 





1.10.1 购买 下 


如 果 设 计 目 标 是 产生 一 个 技术 优化 的 设计 ， 那 么 固定 成 本 就 会 很 高 ， 所 以 其 
成 果 必 须 具 备 广泛 的 适用 性 。 而 另 一 种 方法 就 是 “重用 ” 现 有 设计 。 这 样 做 在 
特殊 处 理 技术 的 细微 差别 方面 可 能 是 次 优 的 ， 但 是 却 能 显著 地 节省 设计 时 间 和 工 
作 量 。 这 种 向 第 三 方 购买 此 类 设计 被 称 为 卫 销售 。 

IP 的 使 用 减少 了 设计 开发 的 风险 : 它 能 减少 设计 成 本 并 缩短 产品 上 市 时 间 。 
IP 的 成 本 通常 取决 于 容量 。 因 此 ， 采 用 IP 的 方法 是 在 减少 式 (1.1) 中 Ki 的 同 
时 以 增加 天 ,为 代价 的 。 

专业 的 SoC 设计 总 会 使 用 多 种 不 同类 型 的 处 理 器 。 非 关键 性 的 及 专业 的 处 理 
器 是 作为 IP 购买 的 ， 并 集成 到 自己 的 设计 中 。 例 如 ，ARM7TDMA 就 是 一 款 通用 
授权 的 32 位 处 理 器 或 称 之 为 “核心 ”设计 。 一 般 来 说 ， 处 理 器 核心 能 以 各 种 方 
式 用 于 设计 和 授权 ， 如 表 1. 16 所 示 。 


表 1.16 可 用 处 理 器 核心 IP 类 型 


用 于 固定 的 工艺 ， 最 优 的 


用 于 很 多 工艺 ， 有 一 定 的 优化 


可 综合 软 IP 寄存 器 晶体 管 级 〈Register Transfer Level, RTL) 用 于 任何 工艺 ， 非 最 优 





硬 IP 是 使 用 处 理 器 技术 中 所 有 可 用 特性 的 物理 级 设计 ， 包 括 电路 设计 及 物 
理 布局 。 很 多 模拟 IP 及 混合 信号 IP (如 SRAM、 阶 段 锁 相 环 ) 都 是 以 这 种 形式 
发 布 的 ， 这 样 能 确保 最 优 的 时 序 及 其 他 设计 特点 。 固 人 P 是 门 级 设计 ， 虽 给 设备 
定 了 尺寸 ， 但 对 很 多 采用 不 同 处 理 器 技术 的 实验 室 设备 来 说 很 合适 。 软 IP EE 
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辑 级 设计 ， 具 有 可 综合 的 格式 ， 能 立即 适用 于 标准 芯片 技术 。 这 种 方法 允许 用 户 
改编 源 代 码 以 使 其 设计 适应 各 种 情形 。 

很 显然 ,厂商 的 设计 越 优化 ， 通 常用 户 的 可 定制 性 就 越 差 ， 但 是 这 样 的 设计 
却 经 常 能 获得 很 好 的 物理 成 本 -性 能 折 中 。 在 定制 过 程 中 ， 由 于 设计 步 又 甚至 是 
产品 技术 本 身 需 要 支持 用 户 定制 ， 因 此 存在 潜在 的 性 能 -成 本 - 功 耗 开 销 。 此 外 ， 
定制 设计 也 需要 再 验证 以 确保 其 正确 性 。 当 前 的 技术 ， 如 接 下 来 描述 的 重 构 技 
术 ， 都 是 致力 于 最 大 化 后 期 定制 的 优点 ， 如 减少 风险 及 缩短 上 市 时 间 。 同 时 ， 它 
们 还 将 与 之 相关 的 缺点 最 小 化 ， 如 通过 引进 电路 的 非 可 编程 的 块 来 支持 如 整数 乘 
法 之 类 的 常见 操作 ， 这 种 电路 块 比 可 重 构 资 源 更 高 效 ， 但 是 却 不 如 其 灵活 。 


1.10.2 BY 


重 构 这 个 词 是 指 通过 很 多 方法 来 让 同一 块 电路 能 在 很 多 应 用 中 重用 。 可 重 构 
设备 也 可 被 看 成 是 一 种 购买 的 IP 类 型 ， 其 制造 成 本 和 风险 都 消除 了 ， 然 而 其 在 
支持 用 户 定制 方面 会 提高 单位 成 本 。 换 句 话 说 ,采用 可 重 构 设 备 是 在 减少 式 
(1.1) 中 天 的 同时 以 增加 K, 为 代价 的 。 

这 种 方法 中 最 著名 的 例子 当 属 FPGA 技术 了 。 一 个 FPGA 由 大 量 的 单元 阵列 
组 成 。 每 个 单元 包含 一 个 小 查找 表 、 一 个 触发 器 ， 还 可 能 有 个 输出 选择 器 。 这 些 
单元 由 可 编程 连 线 连接 在 一 起 ， 使 得 阵列 之 间 具 有 灵活 的 路 由 通路 〈 见 图 1.28) 。 
任何 逻辑 功能 都 可 以 通过 在 FPGA 上 配置 查找 表 与 互联 线 来 实现 。 因 为 一 个 阵列 能 
由 100 000 个 单元 组 成 ， 所 以 很 容易 就 能 定义 一 个 处 理 器 。 实 现 这 种 基于 FPGA 的 
软 处 理 器 的 一 个 明显 缺点 就 在 性 
能 -成 本 - 功 耗 方面 。 当 然 ， 这 种 方 
法 还 是 有 以 下 很 多 优点 的 : 

1) 电路 制造 成 本 随 着 时 间 
SASK. Alt, BAEK 
制造 的 芯片 ， 否 则 就 不 划算 。 而 
FPGA 本 身 是 通用 设备 ， 因 而 被 
期 望 可 以 大 量 制造 。 

2) 相 比 于 设计 一 个 用 于 加 
工 的 芯片 ，FPGA 实现 的 设计 时 
间 较 短 。FPGA 实现 有 很 多 可 用 
的 设计 扩展 库 。 在 需要 缩短 上 市 
时 间 相当 关键 的 时 代 ， 这 样 做 对 
于 设计 尤为 重要 。 

3) FPGA 可 以 快速 搭建 要 制 图 1.28 FPGA 
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造 的 电路 原型 。 在 这 种 方法 中 ,根据 设计 计划 将 一 个 或 多 个 FPGA 配置 起 来 模拟 
它 ， 这 是 一 种 “在 线 仿真 ”形式 。 在 其 上 运行 程序 然后 就 可 以 检测 到 设计 错 
RT. 

4) FPGA 的 可 重 构 性 能 方便 系统 升级 ， 这 将 有 助 于 提高 产品 的 市 场 存活 时 
间 。 这 种 能 力 对 于 那些 新 功能 或 新 标准 快速 涌现 的 应 用 来 说 尤为 有 价值 。 

5) FPGA 能 通过 配置 先 适 应 部 分 任务 ， 然 后 再 配置 来 适应 其 余 任务 ( 称 为 
“运行 时 配置 ”) 。 这 使 得 用 于 特定 运算 的 特殊 功能 部 件 能 适应 环境 变化 。 

6) 在 很 多 计算 敏感 的 应 用 中 ，FPGA 能 通过 配置 成 为 高 效 的 脉动 运算 阵列 。 
由 于 每 个 FPGA 单元 有 一 个 或 多 个 存储 元 件 ， 能 以 合适 的 粒度 进行 流水 线 运算 。 
这 样 能 提供 一 个 巨大 的 运算 带宽 ， 在 选 定 的 应 用 上 能 产生 极 大 的 加 速 。 某 些 设 
$e) a EO Pe Ub ELAS Gj FPGA 结合 起 来 的 ， 如 Stretch S5 软件 配置 的 处 理 器 。 

在 高 效 SoC 设计 中 ， 重 构 与 FPGA 扮演 了 很 重要 的 角色 。 本 书 第 2 章 将 深入 
探讨 这 些 内 容 。 


1.11 总 结 


， 构 建 现代 处 理 器 或 目标 应 用 系统 是 一 项 复杂 的 事业 。 将 数 百 万 晶体 管 集成 在 
单个 芯片 上 的 技术 在 带 来 很 大 优点 的 同时 也 带 了 代价 ， 这 种 代价 不 是 硅 本 身 而 是 
为 了 实现 和 支持 产品 而 需要 做 大 量 的 设计 工作 。 

SoC 设计 存在 很 多 方面 的 内 容 ， 如 高 级 描述 、 编 译 技术 及 本 章 没有 提 到 的 设 
计 流 程 。 这 些 内 容 以 后 会 涉及 。 

在 接 下 来 的 章节 ， 首 先 将 进一步 分 析 技术 方面 的 基本 权衡 点 : 时 间 、 面 积 、 
功 耗 及 可 重 构 能 力 ; 然后 ， 将 分 析 组 成 系统 的 组 件 的 一 些 细节 ， 这 些 组 件 包 括 处 
理 器 、 缓 存 、 存 储 器 及 将 它们 互联 的 总 线 或 开关 ; 接着 ， 从 用 户 定制 和 可 配置 性 
的 角度 来 考虑 设计 与 实现 方面 的 问题 ; 紧 随 其 后 的 是 关于 SoC 设计 流程 及 应 用 研 
究 的 讨论 ; 最 后 ， 将 会 介绍 未 来 SoC 技术 方面 所 要 面 对 的 一 些 挑战 。 

本 书 的 目标 在 于 帮助 系统 设计 师 辨 别 最 高 效 的 设计 选择 及 通过 挖掘 技术 优势 
来 管理 设计 复杂 性 的 机 制 。 
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1. 假设 图 1. 18 所 示 的 TLB 有 256 项 (直接 寻 址 ) 。 如 果 虚 拟 地 址 是 32bit， 
实际 内 存 有 512MB ， 页 大 小 是 4KB ， 画 出 一 个 TLB 项 的 可 能 布局 。 图 1. 18 所 示 
的 用 户 ID 的 作用 是 什么 ?如 果 和 忽略 它 会 有 什么 后 果 ? 

2. 讨论 进行 TLB 地 址 转换 时 可 能 有 哪些 安排 。 
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3. 查找 一 个 真实 的 VLIW 指令 格式 。 描 述 在 使 用 应 用 时 单条 指令 的 格式 及 
其 对 程序 的 约束 。 

4. 查找 一 条 真实 的 用 于 矢量 ADD 的 矢量 指令 。 描 述 该 指令 的 格式 。 反 复 进 
行 向 量 加 载 和 矢量 存储 操作 。 试 问 矢 量 指令 是 否 允 许 重要 执行 ? 并 解释 原因 。 

5. 对 于 图 1. 9 所 示 的 流水 线 处 理 器 ， 假 设 指令 要 在 WB 结束 时 将 控制 代码 
(Condition Code，CC。 能 被 其 后 的 分 支 指令 用 于 测试 ) 置 位 ， 且 指令 # 是 条 件 
分 支 指令 。 在 没有 额外 硬件 支持 的 条 件 下 ， 试 问 分 支 成 功 与 分 支 失 败 情况 下 执行 
HOH 时 的 延迟 分 别 是 多 少 ? 

6. 假设 有 四 个 不 同 的 处 理 器 ， 每 个 都 处 理 某 个 应 用 的 25% 。 如 果 将 其 中 两 
个 处 理 器 速度 提高 10 倍 ， 那 么 总 体 应 用 加 速 是 多 少 ? 

7. 假设 有 四 个 不 同 的 处 理 器 ， 但 是 除了 某 一 个 以 外 其 他 处 理 器 都 受 限 于 总 
线 。 如 果 将 总 线 速度 提高 3 倍 ， 并 且 假 设 处 理 句 性 能 也 同比 例 提高 ,那么 整个 应 
用 的 加 速 是 多 少 ? 

8. 对 于 图 1. 19 所 示 的 流水 线 处 理 器 ,假设 每 条 指令 的 缓存 失效 率 是 0. 05 
且 失 效 延 迟 是 20 个 时 钟 周期 。 那 么 CPI 是 多 少 ? 在 此 忽略 其 他 延迟 ， 如 分 支 
延迟 。 

9. 设计 验证 是 SoC 设计 中 一 个 很 重要 的 方面 。 查 找 几 种 专门 针对 SoC 设计 
的 验证 方法 。 并 从 小 型 Soc 厂商 的 角度 评价 这 些 方法 。 

10. 查找 (如 从 网 上 ) 两 种 最 新 的 VLIW DSP。 判 别 每 个 时 钟 周期 发 射 的 最 
大 操作 数 及 操作 的 组 成 〈 整 数 操作 数目 、 浮 点 操作 数目 、 分 支 操作 数目 等 ) 。 还 
有 规定 的 最 高 性 能 〈 每 秒 指令 数 ) 是 多 少 ? 这 个 数 是 怎么 计算 出 来 的 ? 

11. 查找 (如 从 网 上 ) 两 种 最 新 的 大 型 FPGA 部 件 。 判 别 其 逻辑 块 数目 〈 即 
CLBO) 、 最 小 时 钟 周期 及 允许 的 最 大 功 耗 。 还 有 其 支持 什么 样 的 软 处 理 器 ? 


© CLB: Configurable Logic Block ， 可 配置 逻辑 块 。 
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2.1 引言 


对 于 任何 系统 设计 ， 权 衡 成 本 和 性 能 都 是 最 基本 的 。 不 同 的 设计 ， 源 于 对 性 
价 比 的 不 同 选择 ， 或 者 对 成 本 和 性 能 本 质 的 不 同 假设 。 

设计 创新 的 驱动 力 在 于 飞速 进步 的 工艺 技术 。 美 国 半导体 行业 协会 (Semi- 
conductor Industry Association, SIA) 定期 做 出 技术 前 沿 的 规划 ， 名 为 SIA 蓝图 ， 
这 越 来 越 成 为 了 新 的 芯片 设计 的 基础 和 前 提 。 当 SIA 蓝图 做 出 改变 ， 达 到 并 保持 
芯片 的 先进 性 就 变 得 越 来 越 艰难 。 表 2. 1 给 出 的 SIA 蓝图 是 对 特定 年 份 的 高 性 能 
微 处 理 器 规划 指南 的 总 结 '" ”1 。 随 着 光照 技术 水 平 的 提高 ， 晶 体 管 越 来 越 小 。 加 
工 工艺 限定 了 晶体 管 门 的 最 小 宽度 。 表 2. 1 用 纳米 (om) 来 指 代 加 工 工 艺 ; 而 
老 几 代 的 加 工 工艺 往往 用 微米 (um) 来 描述 。 往 前 几 代 分 别 是 65nm、90nm、 
0. 13um 和 0. 18um。 


表 2.1 SIA 蓝图 
Op} 2010 2013 2016 
缺陷 密度 /( 个 /cm? ) 0.14 0.14 
微 处 理 器 芯片 尺寸 /cm? 一 2.6 2.6 


晶体 管 数 密度 /( 百 万 个 /cm?) 1203 3403 6806 
最 高 性 能 下 最 大 功 耗 /W 146 149 130 











2.1.1 设计 的 权衡 


随 着 芯片 频率 的 增长 ， 尤 其 是 晶体 管 密度 的 增长 ， 设 计 者 必须 能 够 在 快速 变 
化 的 工艺 变化 环境 中 找到 最 好 的 权衡 。 而 由 于 功 耗 需求 ， 芯 片 频率 已 经 成 为 一 个 
不 得 不 考虑 的 问题 。 
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在 做 最 基本 的 芯片 权衡 时 ， 有 五 点 需要 考虑 。 第 一 是 时 间 ， 包 括 事务 或 指令 
周期 的 划分 、 用 于 加 速 执行 指令 的 基本 流水 线 机 制 和 优化 程序 执行 的 参数 周期 。 
第 二 个 是 面积 。 由 于 特定 功能 而 导致 的 面积 开销 ， 是 权衡 架构 的 另外 一 个 重要 方 
面 。 第 三 是 功 耗 。 功 耗 既 影 响 性 能 也 影响 实现 。 需 要 小 面积 实现 的 指令 系统 比 需 
要 更 大 面积 来 实现 的 指令 系统 有 价值 的 多 一 一 虽然 后 者 当然 会 有 与 之 相 匹 配 的 更 
好 的 性 能 。 可 保持 的 性 价 比 是 大 部 分 设计 决策 的 基础 。 第 四 是 可 靠 性 ， 在 处 理 深 
亚 微 米 影响 时 ， 可 靠 性 开始 变 的 重要 。 第 五 是 可 配置 性 。 可 配置 性 为 设计 者 在 权 
衡 非 一 次 性 设计 和 一 次 性 设计 费用 方面 提供 了 一 个 机 会 。 

SoC 设计 的 五 大 问题 

其 中 的 四 个 问题 是 很 明显 的 。 芯 片面 积 〈 制 造成 本 ) 和 性 能 ( 深 受 周期 的 
影响 ) 是 基础 SoC 设计 考虑 的 重要 方面 。 功 耗 作 为 一 个 设计 约束 也 开始 胃 露 头 
角 。 工 艺 缩减 了 特征 尺寸 ， 所 以 稳定 性 也 将 会 成 为 设计 考虑 的 主要 问题 。 

第 五 个 问题 是 可 配置 性 ， 它 并 不 是 一 个 非常 明显 而 需要 立即 就 去 思考 的 问 
题 。 然 而 ， 就 像 本 书 第 1 章 所 讲 的 ， 在 SoC 设计 中 ， 一 次 性 设计 费用 是 能 够 主导 
整个 项 目 成 本 的 。 对 于 SoC 设计 来 讲 ， 通 过 可 配置 性 来 做 出 灵活 的 设计 是 非常 重 
要 的 。 这 样 ， 既 可 以 扩大 市 场 ， 又 可 以 降低 每 一 部 分 的 成 本 。 l 

可 编程 性 支持 现场 编程 ， 并 且 提 供 了 “应 用 定制 的 制造 标准 化 ”特征 。 集 
成 电路 的 标准 化 和 定制 化 之 间 的 可 复 用 的 性 质 是 由 Makimoto 发 现 的 "1 ， 众 所 周 
知 的 Makimoto 曲线 ， 如 图 2.1 所 示 。 

标准 化 


存储 器 
标准 离散 微 处 理 器 现场 可 编程 






2017 


oe 
应 用 定制 化 
图 2.1 Makimoto 曲线 


关于 复杂 度 ， 有 很 多 种 性 价 比 权衡 。 例 如 ， 当 特征 尺寸 固定 时 ， 面 积 可 以 根 
据 性 能 (用 执行 时 间 了 来 表示 ) 来 权衡 。 大 规模 集成 电路 复杂 度 的 理论 表明 ， 
对 于 处 理 器 设计 存在 一 个 4 x 7" 的 边界 范围 ， 并 且 n 往往 落 在 1 ~2524] 。 也 可 以 





为 电视 、 计 算 , 专用 集成 
机 定制 的 大 规 电路 
模 集 成 电路 


用 户 化 
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用 边界 范围 Px 7? 来 权衡 时 间 T 和 功率 P。 处 理 器 设计 权衡 如 图 2. 2 所 示 ， 在 处 
理 器 设计 过 程 中 可 能 的 权衡 方面 包括 面积 、 时 间 和 功率 9] 。 在 这 个 三 维 空间 中 ， 
嵌入 式 处 理 器 和 高 端 处 理 器 在 不 同 的 设计 域 中 得 以 实现 。 功 率 -面积 轴线 主要 用 
于 嵌入 式 处 理 器 的 优化 ， 同 时 时 间 轴 线 主 要 用 于 高 端 处 理 器 。 

本 章 主要 解决 在 设计 中 需 功率 P 
要 权衡 的 问题 。 首 先是 时 间 问 
题 。 性 能 的 最 根本 衡量 标准 是 | 
完成 系统 任务 和 功能 所 需要 的 


s 


高 性 能 服务 器 
用 处 理 器 设计 


时 间 。 这 取决 于 两 点 : 一 是 处 
理 器 存储 器 的 组 织 及 大 小 ， 二 | 
是 它们 的 基本 频率 或 者 时 钟 频 
率 。 第 一 个 问题 将 在 本 书 第 3、 
4 章 解决 。 本 章 只 看 基本 的 处 理 
器 周期 一 一 个 周期 中 发 生 了 


面积 4 








多 少 延 时 ， 指 令 在 执行 过 程 中 | 一 和 
是 怎样 被 划分 成 周期 的 。 接 下 ， 


来 介绍 一 个 成 本 〈 面 积 ) 模型 d 


来 协助 权衡 制造 过 程 中 的 成 本 。 图 2.2 处 理 器 设计 权衡 

这 个 模型 仅 限于 片上 和 处 理 器 

类 型 的 权衡 ,但 是 它 诠释 了 一 种 系统 设计 的 模型 。 正 如 本 书 第 1 章 所 提 到 的 ， 硅 
片 成 本 通常 是 总 成 本 中 很 小 的 一 部 分 ,但 是 对 它 的 了 解 仍然 是 很 有 必要 的 。 功 耗 
一 般 是 由 周期 时 间 和 设计 的 总 尺寸 及 它 的 器 件 所 决定 的 。 在 很 多 SoC 设计 中 ， 它 
已 经 成 为 了 主要 限制 。 最 后 ， 考 虑 可 靠 性 和 可 配置 性 及 它们 对 成 本 和 功能 的 
影响 。 


2.1.2 需求 和 规格 


五 个 基本 的 SoC 权衡 项 为 分 析 SoC 需求 提供 了 一 个 框架 ， 它 可 以 转化 成 规 
格 。 成 本 需求 和 市 场 规模 可 以 转化 成 芯片 成 本 和 工艺 。 耐 用 性 和 重量 限制 的 需要 
会 影响 热量 损耗 ， 可 以 转化 成 功 耗 范围 和 时 钟 周期 限制 。 对 于 一 个 特定 的 设计 ， 
任何 一 个 权衡 标准 都 有 一 个 最 高 优先 级 。 看 以 下 几 个 例子 : 

。 高 性 能 系统 将 以 成 本 和 功率 (甚至 可 能 也 有 可 配置 性 ) 作为 代价 使 得 时 
间 最 优化 。 

。 低 成 本 系统 优化 芯片 的 成 本 、 可 配置 性 和 设计 的 重用 性 〈 也 可 以 有 低 功 耗 )。 

。 可 携带 系统 强调 低 功 耗 ， 因 为 能 量 提供 决定 了 系统 的 重量 。 所 以 这 样 的 
系统 如 手机 等 ， 通 常 有 实时 性 的 限制 ， 而 功能 可 以 忽略 。 
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。 应 用 在 飞机 或 者 其 他 安全 主导 的 嵌入 式 系统 强调 可 靠 性 ， 功 能 和 适用 寿 
命 (可 配置 性 ) 是 第 二 个 重要 的 考虑 因素 。 

。 游戏 系统 强调 成 本 一 一 尤其 是 产品 成 本 ,第 二 是 性 能 ， 对 可 靠 性 的 考虑 
很 少 。 

在 需求 方面 ，SoC 设计 者 需要 认真 地 考虑 每 一 个 权衡 项 ， 并 确定 与 之 相 一 臻 
的 规格 。 本 章 会 将 SoC 需求 因素 转换 成 相应 规格 并 开始 学 习 优 化 设计 选项 ， 同 时 
也 会 有 对 系统 组 成 的 本 质 理解 ， 这 些 在 后 面 章 节 也 会 看 到 。 


2.2 周期 


时 间 的 概念 受到 了 处 理 器 设计 者 的 高 度 关注 。 它 是 性 能 的 最 基本 度量 标准 ; 
然而 ， 将 行为 分 解 成 周期 并 且 降 低 周期 数目 和 周期 时 间 很 重要 ， 但 并 非 是 精确 的 
科学 。 

行为 分 解 成 周期 的 方式 是 很 重要 的 。 一 个 常见 问题 就 是 一 个 基本 行为 需要 意 
料 之 外 的 “额外 ”周期 ， 如 缓存 不 命中 。 总 体 而 言 ， 对 于 周期 选择 和 将 指令 执 
行 分 解 成 为 周期 的 理论 基础 有 限 。 很 多 设计 都 是 基于 语 用 的 。 

在 这 一 部 分 ， 将 介绍 一 些 指令 划分 的 技术 ， 也 就 是 将 指令 执行 时 间 划 分 为 可 
控 和 固定 时 间 的 技术 。 在 流水 线 处 理 器 中 ， 数 据 流 过 每 一 阶段 和 项 目 流 过 装配 线 
几乎 一 样 。 在 每 一 阶段 的 结束 ， 一 个 结果 传递 给 后 面 一 阶段 ， 同 时 一 个 新 的 数据 
流入 进来 。 在 一 定 限 制 之 内 ， 周 期 越 短 ， 流 水 线 就 越 高 效 。 然 而 ， 分 解 的 过 程 是 
有 开销 的 ， 而 且 最 小 周期 时 间 是 受 开销 控制 的 。 简 单 的 周期 模型 可 以 优化 流水 的 
阶段 数目 。 
流水 线 处 理 器 

曾经 ， 处 理 器 中 流水 线 概念 被 认为 是 一 种 先进 的 处 理 器 设计 技术 。 的 确 ， 在 
过 去 的 几 十 年 里 ， 流 水 线 已 经 成 为 了 任何 一 个 处 理 器 和 控制 器 的 主要 部 分 。 它 是 
在 决定 处 理 器 或 系统 的 周期 和 执行 时 一 个 最 基本 的 考虑 方面 。 

周期 和 流水 阶段 数目 之 间 的 权衡 将 会 在 流水 线 优 化 部 分 探讨 。 


2.2.1 周期 的 定义 


周期 (时钟 的 ) 是 处 理 信息 的 基本 时 间 单 元 。 在 同步 系统 中 ， 时 钟 频率 的 
值 是 固定 的 ， 周 期 时 间 是 由 机 器 中 频繁 发 生 操作 的 最 大 完成 时 间 决 定 的 ， 如 加 法 
器 或 寄存 器 数 的 传递 。 这 个 时 间 必 须 足 够 用 于 一 个 数据 存 到 一 个 特定 目的 寄存 器 
( 见 图 2. 3 ) 。 小 频率 操作 需要 更 多 的 时 间 和 周期 来 完成 。 

一 个 周期 起 始 于 指令 译 码 器 (基于 当前 的 指令 操作 码 ) 为 系统 寄存 器 指定 
一 个 数值 。 这 些 控制 数值 将 一 个 特定 寄存 器 的 输出 与 另 一 寄存 器 或 者 加 法 器 或 者 
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信号 采样 
v 


«WL 






控制 总 线 有 效 


给 ALU 送 数 将 数据 存 入 寄存 器 
图 2.3 一 周期 可 能 的 操作 队列 


相似 的 目标 联系 起 来 。 这 就 使 得 来 自 于 源 寄存 器 的 数据 通过 指定 的 组 合 逻辑 传递 
到 目标 寄存 器 。 最 后 ， 经 过 一 段 合适 的 建立 时 间 之 后 ， 所 有 的 寄存 器 通过 时 钟 系 
统 的 边沿 或 脉冲 进行 采样 。 

在 同步 系统 中 ， 周 期 时 间 是 由 周期 内 最 坏 情况 下 的 每 一 步 或 动作 的 时 间 之 和 
决定 的 。 然 而 ， 时 钟 本身 可 能 不 会 在 预期 的 时 间 到 来 〈 由 于 传输 或 加 载 的 影 
响 ) 。 偏 离 期 望 时 钟 到 来 的 最 大 时 间 称 为 时 钟 焉 斜 。 

在 异步 系统 中 ， 周 期 时 间 是 简单 的 由 事件 或 操作 的 完成 来 决定 的 。 一 个 完整 
信号 生成 之 后 ， 才 允许 下 一 个 操作 开始 。 由 于 完成 信号 开销 和 流水 时 序 约束 ， 异 
步 设计 通常 并 不 用 于 流水 线 处 理 器 。 


2.2.2 ”流水线 优化 


对 于 流水 线 处 理 器 设计 者 来 讲 ， 一 个 最 基本 的 优化 就 是 将 流水 线 并 行 分 解 。 
分 解 的 数量 越 大 ， 人 允许 的 最 大 速度 就 越 高 。 然 而 ， 每 个 新 的 分 割 都 会 带 来 时 钟 开 
销 ， 这 将 对 性 能 有 不 利 的 影响 。 

如 果 忽 略 行为 分 割 与 整数 个 周期 匹配 的 问题 ， 可 以 确定 一 个 优化 周期 时 间 
At 和 之 后 简单 流水 线 处理 器 的 分 割 层 次 。 

假设 没有 进行 流水 分 割 时 执行 一 条 指令 的 总 时 间 是 7 (单位 为 ns) ( 见 图 
2. 4a) 。 那 么 问题 是 考虑 时 钟 和 流水 ， 找 到 最 优 的 分 割 数 目 5。 通 过 一 次 分 割 的 
理想 延 时 是 T/S = 了。 。 与 每 个 分 割 相关 的 是 分 割 开 销 。 这 个 时 钟 开销 时 间 〈 纳 
秒 级 ) 包括 时 钟 和 看 斜 和 任意 一 个 寄存 器 所 需 的 建立 和 保持 信号 的 时 间 。 

那么 , 流水 线 处 理 器 的 真正 周期 时 间 ( 见 图 2. 4c) 就 是 理想 的 周期 时 间 T/S 
加 上 时 钟 开 销 。 


Az= 二 +C 
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T 


n a 


时 钟 开销 (C ) 
c) 7 C jm E244 
时 钟 开销 
2 FEE 
| | 结果 可 用 
阻塞 __} — Eai 
一 周期 延迟 — E” 
开始 
图 2.4 最 优 流水 线 


a) 无 时 钟 指令 执行 时 间 7 b) 7 被 分 割 成 $ 段 (每 段 需 要 时 钟 开销 C) 
c) 时 钟 开销 和 它 对 周期 时 间 的 影响 77S d) 流水 组 涩 的 影响 (也 称 流水 中 断 ) 


在 理想 化 的 流水 线 处 理 器 中 ， 如 果 没 有 码 延 迟 ， 指 令 是 以 每 周期 一 条 的 频率 
进行 的 ， 但 延迟 是 会 发 生 的 (主要 是 由 于 猜测 错误 和 不 期 望 的 分 支 造 成 的 ) 。 假 
设 这 些 中 断 发 生 的 概率 是 b 并 导致 $ -1 条 正 准备 进入 或 者 已 经 进入 流水 线 的 指 
令 失 效 (图 2.4 给 出 了 一 个 最 坏 情 况 的 阻塞 )。 流 水 中 断 有 很 多 不 同 种 类 ， 有 不 
同 的 影响 ， 但 是 这 个 简化 模型 诠释 了 中 断 对 性 能 的 影响 。 

考虑 流水 中 断 ， 处 理 器 性 能 为 


weap | en 
性 能 = A 7 
吞吐 量 G 可 以 定义 为 
C -性 能 指令 /ns 


全 | 


dc _ 
dS `~ 
那么 就 找到 了 So ， 最 优 的 流水 分 割 数目 为 


一 旦 初始 $ 确定 ， 总 指令 执行 延迟 (Ta) 为 
Ti =T +S x (时 钟 开销 ) = 7 + SC 








如 果 找 到 $， 使 得 
0 
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mM S(T... +S) =SAt 

最 终 ， 计 算出 用 每 秒 钟 执 行 百 万 指令 数 来 表示 的 吞吐 性 能 。 

假设 T=12.0ns, b=0.2, C=0.5ns, APA S,,, =10 段 。 

如 上 确定 的 这 个 5。, 是 过 分 简化 了 的 ， 并 没有 具体 考虑 函数 单元 不 能 被 随意 
分 割 ， 必 须 遵守 整数 周期 边界 等 。 尽 管 如 此 ， 确 定 5 可 以 起 到 设计 起 始点 的 作 
用 ， 也 可 以 在 其 他 经 验 性 的 优化 设计 方面 作为 重要 的 检查 。 

在 此 之 前 的 讨论 中 ， 只 考虑 基于 性 能 基础 上 的 流水 段 数目 S。 每 当 新 的 流水 
段 被 引进 ， 就 会 增加 额外 的 成 本 ， 这 并 没有 作为 分 析 的 因素 。 每 个 新 的 流水 段 都 
需要 额外 的 寄存 器 和 时 钟 硬 件 。 因 此 ， 最 优化 流水 段 数目 $。。 理 应 被 理解 为 一 个 
特定 处 理 器 能 够 使 用 的 流水 段 数目 可 能 的 上 限 值 。 


2.2.3 性 能 


较 高 的 时 钟 频率 加 上 较 少 的 流水 段 不 一 定 能 够 产生 更 好 的 性 能 。 的 确 ， 考 虑 
到 延 时 缩放 问题 ， 会 立即 问 到 ， 规 划 的 时 钟 频率 是 如 何 得 到 的 。 有 两 个 基本 要 素 
可 以 提高 时 钟 频率 : @ 提 高 对 时 钟 开销 的 控制 ;@ 在 流水 线 种 增加 流水 段 数目 。 
图 2. 5 给 出 了 一 个 周期 内 门 延迟 ， 说 明了 流水 段 的 门 延 迟 已 经 显著 减少 了 约 4/5， 
数据 源 于 单元 的 标准 门 延迟 。 这 个 标准 门 有 一 个 输入 并 且 驱 动 了 四 个 相似 的 门 作 
为 输出 。 这 个 延迟 叫做 四 扇 出 〈Fan-Out of Four, F04) 门 延迟 。 
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2.5 一 个 周期 内 门 延 迟 (F04) 


低 时 钟 开销 (small C) 可 能 会 减 小 流水 段 长 度 ， 但 性 能 并 不 一 定 相应 的 提 
高 ， 除 非 也 降低 流水 阻塞 率 b。 为 了 达到 高 时 钟 频率 ， 处 理 器 也 需要 使 用 大 量 的 
分 支 表 缓冲 区 和 分 支 矢量 预测 表 ， 通 过 这 些 分 支 来 显著 降低 延迟 。 然 而 ， 阻 塞 也 
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可 能 来 自 于 缓存 不 命中 ， 这 就 需要 另外 一 种 方案 : 多 层次 、 超 大 容量 的 片上 组 
存 。 通 常 这 些 缓存 结构 占 了 芯片 面积 的 80% ~90% 。 在 提高 性 能 方面 ， 底 部 的 
处 理 器 远 没 有 提高 缓存 存储 系统 的 效率 重要 。 


2.3 芯片 面积 和 成 本 


周期 时 间 、 机 器 结构 和 存储 配置 决定 了 机 器 的 性 能 。 与 确定 总 成 本 相 比 ， 确 
定性 能 相对 更 直接 一 些 。 

好 的 设计 ， 是 在 特定 目标 性 能 基础 之 上 得 到 最 优化 的 性 价 权 衡 的 。 这 也 决定 
了 处 理 器 设计 的 质量 。 

这 里 ， 就 来 看 看 制造 一 个 系统 时 由 芯片 面积 因素 决定 的 边际 成 本 。 当 然 ， 系 
统 设计 者 也 必须 意识 到 芯片 面积 的 固定 成 本 和 其 他 不 同 的 成 本 所 带 来 的 明显 副 作 
用 。 例 如 ,设计 复杂 度 的 显著 上 升 会 直接 影响 它 的 服务 能 力 、 文 件 编制 成 本 
( Documentation Cost) 或 者 硬件 走向 市 场所 需要 的 精力 和 成 本 。 即 使 无 法 准确 量 
化 它们 的 影响 程度 ， 但 这 些 影响 因素 必须 牢记 于 心 。 


2. 3.1 处理 器 面积 


SoC 的 尺寸 一 般 在 每 边 10 ~ 15mm。 芯 片 是 从 一 个 更 大 的 直径 30cm (4 
12in°) 左右 的 晶片 上 做 出 来 的 。 表 面 看 上 去 似乎 可 以 简单 地 通过 扩大 芯片 面 
积 ， 使 得 每 个 晶 圆 上 产生 更 少 的 芯片 ， 那 么 这 些 更 大 的 芯片 就 可 以 很 容易 地 容纳 
设计 者 所 希望 的 任何 功能 。 不 幸 的 是 ， 唱 圆 和 工艺 都 没有 达到 那么 高 的 水 平 。 在 
晶 圆 表面 ， 缺 陷 随 机 发 生 ( 见 图 2.6) 。 大 的 芯片 要 求 在 其 区 域 范围 内 不 能 有 缺 
陷 。 如 果 芯 片 相对 于 特定 工艺 面积 太 大 ， 那 么 成 品 率 就 会 很 小 或 者 为 零 。 图 2.7 
给 出 了 成 品 率 和 芯片 面积 的 关系 。 

好 的 设计 并 不 需要 有 最 大 的 成 品 率 。 将 设计 面积 降低 到 某 个 特定 值 仅 会 对 成 
品 率 有 边际 影响 。 另 外 ， 小 的 设计 会 浪费 面积 ， 因 为 引 脚 和 在 晶片 上 与 其 他 邻近 
芯片 的 隔离 本 身 就 需要 面积 。 

设计 者 可 用 的 面积 是 一 个 跟 制造 工艺 相关 的 函数 。 这 包括 没有 灰尘 和 其 他 杂 
质 的 纯 硅 晶体 和 工艺 的 整体 控制 。 提 高 工艺 水 平 可 以 使 在 更 大 芯片 切 块 时 达到 更 
高 的 成 曲率。 虽然 光 刻 技术 和 工艺 都 有 提高 ， 但 是 涉及 的 参数 并 没有 相应 的 缩 
放 。 成 功 的 设计 者 必须 对 预期 的 工艺 发 展 有 足够 的 前 瞻 性 ， 这 样 即使 早期 的 设计 
成 品 率 很 低 ， 但 随 着 工艺 的 进步 ， 设 计 周 期 得 以 延长 ， 成 品 率 有 所 提高 ， 这 样 就 
可 以 通过 广泛 的 基础 产品 来 摊 销 设计 团队 的 固定 成 本 。 


© in; 英寸 ,lin =2.54cm。 
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收益 曲线 也 是 
时 间 的 函数 








芯片 面积 
图 2.7 成 品 率 和 芯片 面积 的 关系 


假设 矩形 的 芯片 面积 为 4。 在 一 个 直径 为 4 的 晶 圆 上 大 概 有 N 个 芯片 块 〈 见 
图 2.8)， 有 


这 样 修正 直径 的 晶 圆 被 芯片 分 割 。 现 在 假设 在 晶片 上 有 Ne 个 好 的 芯片 和 No 
个 缺陷 点 。 即 使 N, > W， 也 可 能 得 到 几 个 好 的 芯片 ， 因 为 缺陷 是 随机 分 布 的 ， 
几 个 缺陷 点 可 能 聚集 在 一 个 缺陷 芯片 上 ， 浪 费 了 少量 芯片 。 

根据 Ghandi 的 分 析 "“ ， 假 设 随机 在 晶 圆 上 加 一 个 缺陷 ，NoVN 就 是 这 个 缺 
陷 毁 掉 一 个 好 芯片 的 概率 。 注 意 ， 如 果 缺 陷落 在 了 已 经 坏 掉 的 芯片 上 ， 那 么 就 不 
会 引起 好 的 芯片 数量 的 变化 。 换 句 话说 ， 好 芯片 数 Ne 的 变化 与 缺陷 数 No 变化 
的 比 为 
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有 效 直 径 , d- /4 





图 2.8 直径 为 d 的 晶 圆 上 芯片 的 数量 (面积 为 4) 


dNe_ _Ne 
dN, N 
1 1 
p,e — <= vino 
积分 求解 得 
N 
InN, = = 


解 C 的 值 ， 注 意 当 Nc =Ni, No =0; 所 以 C 必定 的 为 In(N)。 
那么 成 品 率 为 


三 | 字 


-Np/N 


这 说 明了 缺陷 是 泊 松 分 布 的 。 
ME p, 是 每 单元 面积 的 缺陷 密度 ， 那 么 有 
N, =p, x ( 晶 圆 面积 ) 
对 于 大 的 晶 圆 4>V4， 晶 圆 直径 明显 大 于 芯片 边 长 ， 故 
(d- JA) =d 


所 以 ， 成 品 率 为 
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图 2. 9 给 出 了 不 同 缺 陷 浓度 下 好 芯片 数 与 芯片 面积 的 对 比 ， 是 几 种 不 同 缺 陷 
密度 下 芯片 面积 与 预期 成 品 数 的 函数 关系 。 工 艺 的 成 熟 性 和 设备 的 费用 决定 了 
Po 的 大 小 ， 当 前 ， 最 好 的 现代 化 设备 的 pw 一 般 在 0. 15 ~0. 5 之 间 。 
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芯片 面积 
图 2.9 不 同 缺 陷 浓 度 下 好 芯片 数 与 芯片 面积 的 对 比 


大 尺寸 的 芯片 成 本 是 很 高 的 。 对 于 当前 已 经 很 大 的 p, x4( 约 为 5~10) 来 
讲 ， 芯 片 玉 寸 加 倍 对 成 品 率 的 影响 是 非常 显著 的 。 因 此 ， 大 芯片 设计 者 确信 ， 工 
艺 的 发 展 迟 早 会 降低 p 来 为 赚钱 的 产品 提供 足够 的 成 品 率 。 


2.3.2 处 理 器 单元 


在 系统 或 处 理 器 内 部 ， 设 计 的 特定 单元 所 占用 的 面积 是 其 成 本 的 一 个 基本 衡 
量 标准 。 在 做 设计 选择 或 计算 一 个 特定 设计 的 相对 优势 时 ， 边 际 效用 原则 是 经 常 
使 用 到 的 : 假设 有 一 个 完整 的 基础 设计 和 一 些 扩展 设计 的 额外 引 脚 /面积 ， 选 择 
最 佳 的 引 脚 扩 展 面 积 。 在 没有 输出 引 脚 信息 时 ， 假 设 这 个 面积 是 特定 的 性 价 权衡 
的 一 个 主导 因素 。 

很 显然 面积 的 单位 是 平方 毫米 ， 但 是 因为 光 刻 和 几何 最 小 特征 尺寸 是 在 不 断 
变化 的 ， 无 量 纲 单位 会 更 好 一 些 。 其 中 ，Mead 和 Conway!) 用 参数 A 来 解决 这 
个 问题 ， 它 是 任意 两 层 掩 膜 之 间 的 最 小 几何 尺寸 。 扩 散 区 的 最 小 尺寸 为 2A， 与 
其 相 邻 扩散 区 间 的 尺寸 可 能 为 3A。 

假设 从 一 个 2A x2A 的 晶体 管 和 人手， 那么 标 称 2A x2A 的 晶体 管 可 以 扩展 为 
4A x4A， 至 少 需要 1A 来 与 其 他 晶体 管 进行 隔离 ， 需 要 整个 晶体 管 至 少 需要 250° 
的 面积 。 这 样 ， 单 个 晶体 管 的 面积 是 4A? 放置 在 2507 的 区 域 中 。 

最 小 特征 尺寸 /是 多 晶 硅 门 的 长 度 ， 或 者 说 是 一 个 晶体 管 的 长 度 f=2A。 很 


44 计算 机 系统 设计 :; 片上 系统 


明显 ， 可 以 用 和 来 定义 设计 ， 并 且 可 用 任何 其 他 处 理 器 尺寸 ( 门 、 寄 存 器 大 小 
等 ) 来 表示 晶体 管 的 数量 。 所 以 ， 面 积 单位 的 选择 是 相对 任意 的 。 然 而 ， 好 的 
单位 是 能 够 代表 基本 架构 的 权衡 。 寄 存 器 等 效 位 (register bit equivalent, rbe) 
是 一 个 非常 有 用 的 单位 。 它 定义 了 一 个 六 晶体 管 寄存 器 单元 ， 表 示 大 概 2700 和 A” 
的 面积 。 很 明显 它 要 比 单 晶体 管 面积 的 六 倍 要 大 ， 因 为 它 包 含 了 更 大 的 晶体 管 、 
管 间 的 连接 和 内 部 位 之 间 必 要 的 隔离 面积 。 
静态 RAM (Static RAM, SRAM) 单元 具有 更 小 的 带宽 ， 面 积 要 比 rbe 小 很 

多 ,而 一 个 DRAM 位 单元 用 的 面积 就 更 小 了 。 根 据 经 验 得 到 它们 之 间 的 关系 ， 
见 表 2.2。 

2.2 独立 于 工艺 的 相对 面积 rbe 和 A 的 总 结 

(只 要 给 出 特征 尺寸 f/， 可 以 算出 任何 的 芯片 面积 ) 














面积 单位 为 rbe 
一 个 寄存 器 位 1. 0rbe 
片上 缓存 的 一 个 SRAM 位 0. 6rbe 
一 个 DRAM 位 0. Irbe 
the 等 价 于 (用 特征 尺寸 为 /) Irbe =675f? 
面积 单位 为 A 
特征 尺寸 为 f=1pm 时 A 为 1mm? 
1A =f? x10° (f 单 位 为 pm) 
或 者 约 为 ~1481rbe 
一 个 简单 的 有 32 个 字 每 字 32 位 的 整数 文件 (1 读 +1 读 / 写 ) =1444rbe 
或 者 约 为 ~1A( =0. 975A) 
一 个 4KB 的 直接 映射 缓存 =23524rbe 
或 者 约 为 =16A 
简单 通用 缓存 〈 标 签 和 控制 位 数 少 于 数据 位 数 的 1/5 ) =4A/KB 
简单 处 理 器 (近似 ) 
32 位 处 理 器 (没有 缓存 和 浮 点 计算 ) =50A 
32 位 处 理 器 (没有 缓存 但 是 包含 64 位 浮 点 计算 ) =100A 
32 位 单 核 并 行 矢量 处 理 器 ， 没 有 缓存 和 矢量 存储 =200A 
内 部 锁 存 器 、 总 线 、 控 制 和 时 钟 单元 所 需 面积 额外 需要 处 理 器 面积 的 50% 
Xilinx FPGA 
一 个 块 (2LUT +2FF + MUX) =700rbe 
Virtex 4 的 一 个 可 配置 逻辑 模块 (4 小 块 ) =2800rbe=1.9A 
一 个 18KB 的 RAM 模块 = 12600rbe ~8. 7A 
媒人 入 式 PPC405 核 ~250A 
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表 中 ， 寄 存 器 堆 的 面积 由 寄存 器 位 数 和 可 存 取 堆 的 端口 P 数量 决定 : 
寄存 器 堆 面 积 = (寄存 器 数 +3P) (寄存 器 位 数 +3P)zrbe 

缓存 面积 用 的 是 SRAM 位 模型 ， 由 缓存 位 的 总 数 所 决定 ， 包 括 数组 、 索 引 
和 控制 位 。 

芯片 或 部 分 芯片 上 单位 rbe 的 数量 在 迅速 增 大 ， 所 以 通常 用 一 个 更 大 的 静态 
单位 比较 容易 。 我 们 简单 地 将 这 个 单位 定 为 A， 定 义 在 f=1pm 时 其 值 为 lmm 的 
芯片 面积 。 这 同时 也 是 一 个 32 x32 的 三 端口 寄存 器 堆 或 者 1481rbe 的 面积 。 

晶体 管 密度 、rbe 和 A 都 是 特征 尺寸 二 次 方 的 一 个 扩展 。 正 如 表 2.3 所 示 ， 
对 于 特征 尺寸 f/，1mm 面积 上 A 的 数目 就 是 (1/1)”。 与 1pm 的 特征 尺寸 相 
比 ， 在 特征 尺寸 45nm 工艺 下 ，1mm 面积 上 晶体 管 的 数量 rbe 值 的 大 概 是 其 
500 多 售 。 


表 2.3 不 同 特征 尺寸 的 晶体 管 密度 〈 以 A 计量 ) 





2.4 理想 和 实用 尺寸 


在 特征 尺寸 和 晶体 管 缩小 的 同时 ， 和 希望 晶体 管 的 密度 也 以 特征 尺寸 二 次 方 的 
数量 级 提高 。 相 似 的 ， 传 输 延 时 〈 门 延 时 ) 应 该 会 与 特征 尺寸 (与 电容 的 降低 
一 致 ) 线性 相关 地 降低 。 实 用 尺寸 则 不 同 ， 因 为 线 延 时 和 线 密度 的 尺寸 变化 率 
与 晶体 管 尺寸 不 同 。 特 征 尺寸 减 小 的 同时 线 延 时 几乎 保持 不 变 ， 因 为 偏 移 电 阻 增 
大 ， 长 度 和 电容 减 小 。 图 2. 10 说 明了 线 延 时 相对 门 延 时 的 主导 地 位 的 上 升 ， 尤 
其 是 在 特征 尺寸 小 于 0. 10pm 的 时 候 。 相 似 地 ， 当 特征 尺寸 小 于 0.2pm Hf, i 
体 管 密度 的 提高 就 会 一 定 程度 上 比特 征 尺 寸 的 二 次 方 小 。 通 常 建 议 认为 将 1.5 作 
为 扩大 因子 更 准确 ， 如 图 2. 11 所 示 ; 换 句 话 说 ， 规模 是 以 (f1/f,)” 而 不 是 
f/f) 扩大 。 在 缩放 过 程 中 发 生 的 事情 是 很 复杂 的 。 不 仅 特征 尺寸 减 小 了 ， 工 
艺 的 其 他 方面 也 发 生变 化 ， 并 且 通 常 是 提高 的 。 所 以 ， 铜 线 和 许多 其 他 的 布线 层 
就 可 以 实现 ， 并 且 提 高 电路 设计 。 主 流 工艺 的 改变 会 以 不 连续 的 方式 影响 到 太 
寸 。 只 要 设计 者 能 够 利用 新 一 代 工艺 的 全 部 属性 ， 布 线 的 限制 带 来 的 影响 就 会 戏 
剧 性 地 改善 。 简 单 的 设计 尺寸 可 能 紧 紧 以 1. 5 倍 指数 的 速度 扩大 ， 但 利用 新 工艺 
特征 的 新 一 代 实 现 方式 可 以 达到 2 倍 指数 的 扩大 速度 。 为 了 简化 起 见 ， 后 面 ， 我 
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们 将 根据 上 面 的 理解 利用 理想 尺寸 。 


400 = 








350 


300 


250 


延 时 /ps 


200 





0.7 0.5 0.35 0.25 0.18 0.13 
工艺 /nm 


图 2.10 线 延 时 与 门 延 时 对 比 


面积 / (mm Xx mm) 





0.35 0.25 0.18 0.13 0.09 
工艺 /nm 


图 2.11 最 优 和 实际 缩放 的 芯片 面积 


研究 2.1 一 个 基本 的 SoC 面积 模型 

高 效 系统 设计 的 关键 是 芯片 层次 设计 。 芯 片 层 次 设计 的 过 程 跟 电阻 的 层次 
设计 过 程 没 有 太 大 区 别 。 处 理 器 的 每 个 功能 部 分 必须 放置 在 足够 大 的 空间 来 实 
现 。 经 常 交流 的 功能 单元 必须 紧密 地 放 在 一 起 。 连 接 路 径 上 必须 分 配 足 够 的 
空间 。 

为 了 解释 在 优化 芯片 层次 设计 的 过 程 中 可 能 会 做 出 的 权衡 因素 ， 给 大 家 介绍 
一 个 基准 系统 。 在 此 系统 中 ， 特 定 区 域 可 以 完成 不 同 的 功能 。 面 积 模型 是 基于 经 
验 发 现 的 ， 这 些 发 现 源 于 现 有 芯片 、 设 计 经 验 和 某 些 情况 下 的 逻辑 推理 (如 浮 
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点 加 法 器 和 整数 ALU 的 关系 ) 。 这 里 所 描述 的 芯片 在 任何 意义 上 都 不 应 该 是 最 佳 
的 ， 而 是 当今 市 场 上 一 定数 量 设 计 中 的 典型 例子 。 

出 发 点 。 设 计 起 始 于 对 半导体 设计 工艺 参数 的 理解 。 假 设 能 够 使 用 缺陷 密度 
为 0. 2 个 缺陷 /cm 的 制造 工艺 ;出 于 经 济 考虑 ， 目 标 成 品 率 大 约 为 95% ， 有 

Y=e ?o" 
Spy =0.2 个 缺陷 /em ，Y=0.95。 则 
A H 25mm? 

或 者 说 大 概 为 0. 250m, 

所 以 可 用 的 芯片 面积 为 23mm” ， 芯片 总 面积 
这 是 芯片 的 总 面积 ， 但 是 像 连接 芯片 
与 外 部 世界 的 线 端 焊 点 、 这 些 连接 点 
的 驱动 和 供 能 电路 等 都 会 降低 设计 者 
能 够 利用 的 芯片 面积 。 假 设 利 用 12% 
的 芯片 面积 (通常 是 芯片 外 围 ) 来 完 
成 这 些 功 能 ， 那 么 净 面 积 为 22cm”( 见 





图 2. 12)。 a 
特征 尺寸 。 特 征 尺 寸 越 小 , 就 有 ye uo eo 
越 多 的 逻辑 单元 可 以 在 固定 的 面积 内 所 需 结构 面积 
实现 。 在 特征 尺寸 /=65nm 时 ， 可 以 图 2. 12 芯片 净 面 积 


有 大 约 52004 或 者 22 mm 的 面积 单元 。 

体系 结构 。 根 据 定 义 ， 几 乎 每 个 系统 都 是 不 同 于 其 他 系统 的 ， 每 个 系统 都 有 
不 同 的 目标 。 例 如 ， 假 设 我 们 需要 具备 如 下 结构 : 

e 一 个 小 的 32 位 处 理 器 核 ，8KB 的 指令 缓存 和 16KB 的 数据 缓存 。 

。 两 个 32 位 矢量 机 ， 每 个 矢量 机 有 16 个 1K x 32b 的 矢量 存储 体 ; 一 个 
8KB 指令 缓存 和 一 个 16KB 数据 缓存 来 存放 标量 数据 。 

。 一 个 总 线 控制 单元 。 

。 128KB 的 实地 址 应 用 存储 器 。 

。 一 个 共享 二 级 缓存 。 

面积 模型 。 下 面 是 根据 系统 中 不 同 单元 需求 对 面积 的 分 解 。 


矢量 寄存 器 和 缓存 2 
总 线 和 总 线 控制 (50% ) 大 约 小 于 650 





应 用 内 存 OA) 
ET 


200 
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， 锁 存 器 、 总 线 和 内 部 控制 。 对 于 每 个 功能 单元 ， 都 有 一 定 的 开销 ， 包 括 非 特 
殊 存储 器 ( 锁 存 器 ) 、 内 部 通信 (总线) 和 内 部 单元 控制 。 其 中 锁 存 器 的 开销 占 
10% ， 总 线 、 工 艺 路 线 、 时 钟 和 所 有 的 控制 占 40% 。 

系统 总 面积 。 专 用 处 理 器 单元 和 存储 部 件 占 2462A。 这 样 剩 下 净 (5200 - 
2462)A =2738A 的 面积 可 以 用 作 缓 存 。 注 意 ， 芯 片 是 高 度 的 以 存储 为 导向 的 。 
剩 下 的 面积 将 会 分 配给 二 级 缓存 。 

缓存 面积 。 缓 存 能 够 分 配 的 净 面 积 为 2738A。 但 是 对 于 缓存 设计 者 来 说 ， 芯 
片上 零 零 碎 碎 没 有 被 占用 的 面积 并 不 一 定 有 用 。 这 些 碎片 必须 合理 地 集中 在 一 个 
紧凑 的 区 域 才 能 够 设计 出 高 效 的 缓存 。 

例如 ， 一 个 长 宽 比 很 大 的 可 用 区 域 明显 比 一 个 紧凑 或 方形 的 区 域 可 用 性 差 。 
一 般 来 说 ， 在 处 理 器 分 层 设计 之 初 ， 会 为 长 宽 比 失调 分 配 男 外 10% 的 开销 。 这 
样 剩 下 可 用 的 净 面积 就 成 了 2464A。 | 

这 样 就 得 到 了 大 约 512KB 的 二 级 缓存 。 这 合理 吗 ? 在 这 一 点 上 只 能 说 这 人 么 
大 的 缓存 对 于 芯片 是 合适 的 。 现 在 必须 应 用 一 下 并 确定 这 个 分 配 是 否 会 得 到 最 高 
性 能 。 或 许 更 大 的 存储 器 或 者 另外 一 个 矢量 机 或 者 更 小 的 二 级 缓存 能 够 得 到 更 好 
的 性 能 。 接 下 来 就 讨论 这 个 性 能 问题 。 

图 2. 13 给 出 了 一 个 芯片 分 层 设计 的 基本 框架 实例 。 设 计 面 积 的 规则 总 结 
如 下 : 

1. 根据 缺陷 密度 和 成 品 率 的 目标 ， 算 出 目标 芯片 的 尺寸 。 

2. 算出 芯片 成 本 ， 确 定 它 是 否 符合 要 求 。 


re gp ey 





| 总 线 和 内 部 控制 单元 5 


图 2. 13 ”一 个 芯片 分 层 设计 的 基本 框架 实例 
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3. 计算 净 可 用 面积 。 为 引 脚 、 保 护 环 、 电 源 等 留 出 10% ~20% (或 其 他 合 
适 比例 ) 的 面积 。 

4. 根据 最 小 特征 尺寸 , 算出 rbe 的 尺寸 。 

5. 在 试验 的 系统 架构 基础 上 分 配 面积 ， 直 到 基本 的 系统 面积 得 以 确定 。 

6. 将 5 中 的 系统 基本 尺寸 减 掉 3 的 净 可 用 面积 。 得 到 的 就 是 芯片 缓存 和 存 
储 器 可 用 的 最 优 面 积 。 

注意 ， 在 这 个 研究 当中 (并且 对 于 很 多 小 特征 尺寸 设计 更 加 确定 )， 芯 片 的 
大 部 分 都 被 分 配给 了 一 种 或 另 一 种 存储 器 。 最 基本 的 处 理 器 面积 大 约 为 20% , 
其 中 部 分 面积 包括 总 线 和 控制 部 分 。 因 此 ， 只 要 对 存储 器 的 估计 是 准确 的 ， 那 么 
不 论 对 处 理 器 核 和 矢量 机 面积 的 估计 多 么 粗略 都 不 会 影响 芯片 面积 分 配 的 准确 
度 。 在 特定 的 设计 条 件 下 ， 有 很 多 用 来 计划 芯片 分 层 的 商业 工具 。 


2.5 功 耗 


近来 ， 对 无 线 和 便携 式 电子 产品 需求 的 增加 使 得 更 多 的 关注 放 在 了 功 耗 上 。 

美国 SIA 指出 了 微 处 理 器 芯片 由 于 工作 频率 的 增高 、 整 体 电容 的 增 大 和 斥 寸 的 增 

大 而 存在 日 益 增 长 的 功 耗 问题 。 功 耗 是 芯片 消耗 的 功率 ， 它 并 不 是 由 特征 尺寸 直接 

决定 的 ， 因 为 它 最 基本 的 决定 因素 是 频率 。 表 2.4 给 出 了 芯片 按 功 耗 分 类 的 情况 。 
R24 芯片 按 功 耗 分 类 的 情况 


冷却 高 功 耗 外 插 ， 冷 却 环境 





超 低 功 耗 1. 0 ~ 100. OmW AA 电池 
极 低 功 耗 1. 0 ~ 100. 0pW 钮 扣 电池 
在 晶体 管 级 ， 其 总 功率 Pw 包括 两 个 主要 部 分 : 动态 或 切换 功率 和 由 漏电 流 
引起 的 静态 功率 ， 即 


2 
Pan Ha V 


2 leakage 


式 中 ，C 为 晶体 管 电容 ; VV 为 电源 电压 ; 为 晶体 管 的 切换 频率 ; fuue 为 漏电 流 。 
直到 最 近 ， 切 换 功 率 一 直 是 总 功率 的 主导 因素 ,但 是 现在 静态 功率 也 在 增加 。 从 
另外 一 个 角度 来 讲 ， 门 延 时 大 概 跟 CVA(V -Va ?成 正比 。 甚 中， 内 为 晶体 管 的 
阔 值 电压 〈 对 于 逻辑 级 开关 ) 。 

特征 尺寸 减 小 的 同时 ， 晶 体 管 尺寸 也 在 减 小 。 更 小 的 晶体 管 尺寸 导致 了 电容 
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降低 。 电 容 降低 的 同时 降低 了 动态 功率 和 门 延 时 。 随 着 晶体 管 尺寸 的 减 小 ， 应 用 在 
其 中 的 电场 已 经 大 到 毁灭 性 的 程度 。 为 了 提高 晶体 管 的 可 靠 性 ， 我 们 需要 降低 电源 
电压 Y。 降 低 电 压 耻 有效 地 降低 了 动态 功率 ， 但 是 却 导致 门 延 时 增加 。 可 以 通过 降 
低 WV, 来 避免 这 种 损失 。 而 另 一 方面 ， 降 低 Vi 提高 了 漏电 流 ， 因 此 也 就 提高 了 静态 
功率 。 这 对 设计 和 产品 的 影响 是 很 大 的 ; 在 产品 中 必须 有 以 下 两 种 晶体 管 设计 : 

1. 低 内 值 和 高 静态 功率 的 高 速 晶体 管 。 

2. 维持 内 和 了 不 变 ， 以 电路 密度 和 低 静 态 功 率 为 代价 的 低速 晶体 管 。 

不 论 哪 种 情况 ， 都 可 要 通过 降低 电源 电压 了 来 减 小 开关 功率 。Chen 等 人 05] 
说 明了 漏电 流 的 正比 值 为 

T=(¥=¥,)'* 

sth, V 为 电源 电压 。 

根据 上 面 的 讨论 可 以 看 到 ， 信 号 传递 时 间 和 频率 随 充电 电流 而 变化 。 所 以 ， 
最 大 工作 频率 也 是 跟 (V-V,)'?/V 呈正 比 关系 的 。 对 了 和 内 的 值 感 兴趣 ， 也 
就 是 说 频率 随 电源 电压 呈 比 例 变化 。 

假设 内 是 0.6V; 假如 将 电源 电源 降 为 /2， 也 就 是 从 3. 0V 降 为 1.5V， 那 
么 工作 频率 也 降 为 了 大 约 原来 的 1/2。 所 以 ， 电源 电压 减 半 ， 工作 频率 也 将 
减 半 。 

根据 功率 方程 (电压 和 频率 都 已 经 减 半 ) ， 总 功 耗 变 为 了 原来 的 1/8。 因 此 ， 
如 果 对 现存 设计 的 频率 进行 优化 并 且 将 其 改 为 低 电压 运行 ， 那么 频率 将 会 大 概 降 
为 最 初 静 态 功 率 的 三 次 方 根 : 

A. [P 
h P, 

理解 对 现存 设计 的 频率 的 缩放 和 功 耗 优化 实现 之 间 的 区 别 是 非常 重要 的 。 功 
耗 优 化 的 实现 和 功能 优化 的 实现 在 几 个 方面 是 不 同 的 。 

功率 优化 的 实现 是 用 更 少 的 芯片 面积 ， 不 仅 是 因为 要 降低 供电 和 时 钟 分 配 的 
需求 ， 而 且 更 重要 的 是 因为 性 能 目标 的 降低 。 性 能 主导 的 设计 利用 了 大 量 的 面积 
使 到 性 能 的 边际 提高 ， 如 用 超大 规模 的 浮 点 单元 、 最 小 时 钟 倾斜 的 分 布 网 络 和 最 
大 尺寸 的 缓存 。 但 对 于 利用 电池 的 便携 式 或 者 无 线 处 理 器 来 讲 ， 功 率 是 最 关键 的 
问题 ， 而 不 是 性 能 。 表 2. 5 给 出 了 一 些 电池 的 容量 和 工作 周期 。 


表 2.5 一 些 电 池 的 容量 和 工作 周期 
可 充电 电池 50 小 时 (10% ~20% 使 用 时 间 ) 
| eee 5 年 (一 直 用 的 情况 F) | 
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对 于 需要 在 电池 上 运行 额外 一 段 时 间 的 SoC 设计 来 讲 ， 整 个 系统 的 功率 必须 
保持 很 低 (大 约 为 毫 瓦 级 ) 。 因 此 ， 功 率 管理 的 实现 也 就 从 系统 架构 和 操作 系统 
级 延伸 到 了 人 逻辑 门 级 。 

另外 一 个 功率 上 的 约束 峰值 功率 也 是 设计 者 不 能 忽略 的 一 个 问题 。 在 任何 设 
计 当 中 ， 在 特定 电压 下 电源 只 能 提供 相应 的 电流 ; 超过 这 个 值 ( 即使 是 一 个 瞬 
变 ) 都 会 导致 逻辑 错误 或 者 更 糟糕 的 状况 〈 毁 掉 电源 ) 。 


2.6 在 处 理 器 设计 中 面积 -时 间 - 功 耗 的 权衡 


对 于 以 下 两 种 常见 的 处 理 器 来 讲 ， 设 计 权 衡 是 相当 不 同 的 : 

1. 工作 站 处 理 器 。 这 类 设计 是 以 高 频 和 交流 电源 为 设计 导向 的 (不 包括 笔 
记 本 ) 。 因 此 它们 没有 面积 限制 ， 缓 存 占据 了 芯片 的 大 部 分 面积 ， 设 计 是 相对 非 
常 精心 复杂 的 〈 超 标量 多 线程 ) 。 

2. SoC 上 的 内 和 人 式 处 理 器 。 这 类 处 理 器 通常 控制 结构 比较 简单 ， 但 是 在 专用 
处 理 器 中 可 能 会 比较 复杂 (如 DSP) 。 面 积 是 一 个 重要 因素 ， 设 计时 间 和 功 耗 同 
样 也 是 。 


2.6.1 工作 站 处 理 器 


为 了 得 到 通用 目标 的 性 能 ， 设 计 者 假定 电源 能 量 是 足够 的 。 最 基本 的 权衡 是 
在 时 钟 的 高 频率 和 导致 的 高 功 耗 之 间 的 权衡 。 早 在 20 世纪 90 年 代 初 期 ， 利 用 了 
双 极 工艺 的 射 极 耦 合 逻 辑 (Emitter Coupled Logic, ECL) 在 高 性 能 应 用 领域 (E 
体 架 构 和 超级 计算 机 ) 占据 了 主导 地 位 。 
其 功率 密度 为 80W/cm ， 模 块 的 封装 需要 
液体 的 散热 形式 。 日 本 日 立 公 司 的 M-880 
是 这 个 时 期 的 一 个 例子 ( 见 图 2. 14) ， 一 
个 约 10cm x 10cm 的 模块 功率 为 800W。 这 
个 模块 包括 40 个 分 割 块 ， 用 冷水 密封 在 
氮气 当中 ， 这 些 冷水 是 从 模块 上 方 的 一 个 
冷却 管 压 和 的。 由 于 CMOS 是 接近 双 极 性 
的 ， 所 以 这 样 一 个 冷却 系统 的 特殊 成 本 就 
不 复 存 在 了 ,然后 晶体 管 时 代 结 束 了 ici 
(WE 2.15). WE, CMOS 已 经 达到 了 图 2.14 日 本 日 立 公司 M-880 处 理 器 模块 
相同 的 功率 密度 ， 如 果 芯 片 频率 继续 增 〈M-880 大 约 是 在 1991 年 问世 的 。 该 模块 
加 ， 那 么 就 不 得 不 再 次 考虑 使 用 类 似 的 冷 ”大 小 为 10.6cm x10. 6cm, 功率 为 800W 
HAT. BEL, #2003 年 以 后 ， 有 并 带 有 水 冷 系统 ) 
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用 的 芯片 频率 稳定 在 了 3.5GHz 左右 。 


1000 


时 钟 频率 /MHz 





1 
1967 1973 1983 1993 2003 
年 份 


图 2.15 不 同时 间 双 极 晶 体 管 和 CMOS 处 理 器 频率 
(一 般 来 讲 ，CMOS 频率 的 增长 已 经 因为 功率 而 受到 约束 ， 在 大 约 2003 年 停 在 了 3. 5CHz) 


2.6.2 BRAT MESS 


片上 芯片 的 实现 有 很 多 的 优势 。 其 需求 是 众所周知 的 ， 所 以 存储 器 大 小 和 实 
时 延迟 约束 是 可 以 预测 的 。 处 理 器 可 以 为 了 实现 一 个 特定 功能 而 特色 化 。 通 常 ， 
这 样 做 可 以 降低 时 钟 频率 ( 功 耗 ) ， 同 时 可 以 通过 直接 开发 体系 结构 内 的 并 发 性 
重新 得 到 相应 性 能 (如 DSP 应 用 中 使 用 简单 VLIW ) 。 跟 处 理 器 芯片 相 比 ， 可 利 
用 的 设计 时 间 / 工 作 和 芯片 内 部 功能 块 间 的 通信 是 SoC 的 劣势 。 对 任何 一 个 特定 
AS, SoC 的 市 场 都 相对 较 小 。 因 此 ， 人 们 很 难 承担 在 处 理 器 芯片 上 广泛 的 定制 
优化 ， 所 以 通常 都 会 用 成 品 的 处 理 器 核 。 因 为 在 设计 的 时 候 就 知道 程序 和 数据 所 
需 的 存储 空间 大 小 ， 特 定 存储 结构 可 以 被 包含 在 芯片 上 。 这 可 以 是 SRAM 或 者 
特殊 设计 的 DRAM (因为 普通 DRAM 的 工艺 与 之 不 相 容 ) 。 有 了 多 个 存储 单元 、 
多 个 处 理 器 〈 有 些 是 专用 的 有 些 是 通用 的 ) 和 特殊 的 控制 器 ， 问 题 就 只 剩 下 为 
保证 及 时 的 通信 设计 一 个 稳健 的 总 线 层 了 。 典 型 的 处 理 器 芯片 与 SoC 芯片 的 比较 
如 表 2.6 所 示 。 

表 2.6 典型 的 处 理 器 芯片 与 SoC 芯片 的 比较 
在 全 所 用 而 50% RON/RAM 


宇 1GB DRAM 
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2.7 可 靠 性 


第 四 个 重要 的 设计 因素 是 可 靠 性 "” ， 也 叫做 可 依赖 性 或 容错 性 。 影 响 可 靠 
性 的 因素 比 成 本 和 功 耗 对 处 理 器 或 SoC 芯片 的 影响 因素 要 多 很 多 。 

可 靠 性 跟 芯 片面 积 、 时 钟 频率 和 功 耗 有 关 。 芯 片面 积 增加 了 电路 的 数量 和 发 
生 错 误 的 可 能 性 ， 但 它 也 允许 使 用 错误 探测 和 纠 错 技术 。 高 时 钟 频 率 增 加 了 电气 
噪声 和 噪声 密度 。 越 小 的 电路 速度 越 快 ， 也 就 越 容 易 受 辐射 的 影响 。 

不 是 所 有 的 失效 和 错误 都 会 导致 故障 ， 确 实 ， 也 不 是 所 有 的 故障 都 会 导致 不 
正确 的 程序 执行 。 故 障 如 果 被 探测 到 ， 就 可 以 用 纠 错 码 (Error Correcting Code, 
ECC) 标识 ， 指 令 重 新 执行 或 者 重新 配置 。 

首先 说 明 以 下 几 个 定义 : 

1. 失效 (failure) 是 与 设计 规格 的 偏差 。 

2. 错误 (error) 是 导致 不 正确 的 信号 值 的 失效 。 

3. 故障 (fault) 是 一 种 表现 为 不 正确 逻辑 的 错误 。 

4. 物理 故障 (physical fault) 是 由 环境 引起 的 ， 如 老化 、 辐 射 、 温 度 和 温度 
周期 变化 等 。 物 理 错 误 的 可 能 性 是 随时 间 增 加 的 。 

5. 设计 故障 (design fault) 是 由 设计 实现 与 设计 规格 不 一 致 而 导致 的 失效 。 
通常 ， 设 计 错 误 在 设计 的 早期 产生 ， 随 时 间 慢 慢 降低 或 者 被 消除 。 


2.7.1 解决 物理 错误 


从 系统 的 角度 ， 需 要 生成 的 处 理 器 和 其 附加 配置 是 必须 一 直 很 稳健 的 。 假 设 
一 个 错误 发 生 的 概率 为 P(i) ，7 为 错误 的 平均 时 间 (Mean Time Between Fault, 
MTBF), PLA, MRA 是 错误 率 ， 则 
1 


T 

那么 假设 错误 发 生 在 特定 单位 的 时 间 轴 上 ， 时 间 轴 被 平均 时 间 7 分割 开 来 。 

利用 与 建立 的 成 品 率 泊 松 方程 相同 的 推理 ， 可 以 得 到 错误 泊 松 方程 : 
P(t) =e" =e™ 

元 余 是 一 种 能 够 很 明显 提高 可 靠 性 〔 降 低 P (2) 的 方法 。 三 模 宛 余 (Tri- 
ple Modular Redundancy, TMR) 是 一 种 很 著名 的 技术 。 三 个 处 理 器 执行 同一 个 计 
算 并 进行 结果 比较 。 一 个 裁决 器 选 出 输出 结果 ， 这 个 结果 必须 是 由 至 少 两 个 处 理 
器 同意 的 。TMR 能 够 起 作用 ， 但 仅 是 一 定 程 度 上 起 作用 。 除 了 很 显然 的 裁决 器 
的 可 靠 性 问题 外 ， 绝 对 数量 的 硬件 也 有 问题 。 很 明显 ， 虽 然 由 上 能够 得 到 了 ， 但 
是 在 TMR 系统 中 错误 的 数量 是 可 以 比 单纯 型 系统 中 多 的 〈 见 图 2. 16 ) 。 当 然 ， 
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X t 满足 如 下 公式 时 ，TMR 中 错误 的 概率 是 超过 单纯 型 系统 的 : 
t =T x log,2 





错误 概率 





0 01 02 03 04 05 06 07 08 09 
时 间 


2.16 TMR 与 单纯 型 系统 的 可 靠 性 比较 


大 部 分 容错 设计 包括 了 如 下 更 简单 的 硬件 : 

错误 检测 。 对 于 可 靠 系统 配置 ， 奇 偶 码 、 残 余 码 和 其 他 编码 的 使 用 是 非常 有 
必要 的 。 

指令 (操作 ) 重 试 。 一旦 检测 到 错误 ， 操 作 就 重新 执行 ， 以 解决 瞬 变 错误 。 

错误 校正 。 既 然 系统 的 大 部 分 是 具有 存储 功能 的 ， 利 用 ECC 可 以 有 效 地 克 
服 存储 错误 。 

重新 配置 。 一 旦 错误 被 检测 到 ， 很 可 能 系统 的 一 部 分 就 需要 重新 配置 ， 这 样 
的 话 发 生 错误 的 子 系统 就 与 后 面 的 计算 隔离 开 来 。 

需要 注意 的 是 ， 带 错误 检测 的 高 效 可 靠 的 系统 配置 是 有 限 的 。 作 为 最 低 限 
度 ， 大 部 分 系统 都 需要 在 必要 的 系统 部 件 的 所 有 部 分 安装 错误 检测 ， 并 且 应 该 有 
选择 性 地 使 用 ECC 和 其 他 技术 来 提高 可 靠 性 。 

IBM 大 型 机 S/390 ( 见 图 2.17) 系统 就 是 一 个 以 可 靠 性 为 导向 的 实例 。 模 型 
包括 了 12 个 处 理 器 模块 : 5 对 双 工 组 态 (5 x2) 运行 了 5 个 独立 的 任务 ，2 个 
处 理 器 用 来 监控 和 备用 。 在 双 工 状态 下 ， 成 对 处 理 器 共享 通用 的 缓存 和 存储 系 
统 。 成 对 处 理 器 运行 相同 的 任务 并 且 对 结果 进行 比较 。 处 理 器 在 所 有 可 能 的 地 方 
用 了 错误 检测 。 绥 存 和 存储 系统 利用 的 ECC， 通 常 是 单 错 校正 、 双 错 检 测 (Sin- 
gle Error Correction Double Error Detection, SECDED) 的 。 

近期 的 研究 将 可 靠 性 落脚 于 多 处 理 器 SoC 工艺 上 。 例 如 ， 通 过 宇宙 射线 的 单 
一 事件 干扰 来 提高 可 靠 性 ， 电 压 调整 和 应 用 任务 映射 等 技术 也 将 会 用 到 "”]。 
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1 号 处 理 器 组 

处 理 器 处 理 器 

is 

2 号 处 理 器 组 

a a 处 理 器 监控 /备用 

A B 
处 理 器 缓存 处 理 器 

3 号 处 理 器 组 A 

处 理 器 处 理 器 
4 号 处 理 器 组 
5 号 处 理 器 组 


图 2.17 一 种 利用 错误 探测 的 双 工 容错 方法 


2.7.2 错误 检测 和 纠正 


最 简单 的 错误 校 验方 式 是 奇偶 校 验 。 将 1 位 数字 ( 校 验 位 ) 加 到 每 个 存储 
的 字 或 传输 的 数据 中 ， 保 证 这 个 字 中 1 的 个 数 之 和 为 偶数 (或 者 奇数 ， 根 据 方 
便 提前 定义 ) 。 如 果 字 中 的 任何 一 位 发 生 了 一 个 错误 ， 那么 字 中 1 的 个 数 之 和 对 
2 取 模 就 会 跟 奇偶 假设 不 一 致 ， 那 么 存储 的 这 个 字 就 被 认为 是 有 误 的 。 

知道 被 检索 的 这 个 词 中 有 错误 是 很 有 价值 的 。 通 常 ， 简 单 的 重复 接收 一 次 就 
可 以 得 到 正确 的 内 容 。 然 而 ， 通 常 在 特定 存储 器 单元 中 的 这 个 字 已 经 丢失 ， 再 多 
次 的 重复 接收 也 无 法 得 到 数据 的 正确 值 。 因 为 这 种 错误 往往 在 大 的 系统 中 发 生 ， 
所 以 大 部 分 系统 都 包含 使 用 ECC 方法 的 自动 纠正 单 错 的 硬件 。 

这 种 形式 的 最 简单 编码 是 由 几何 块 代码 构成 的 。 要 被 检测 的 比特 报 文 被 排 在 
近似 方形 的 网 格 中 ， 用 校 验 位 对 每 一 行 和 每 一 列 进行 增 广 。 如 果 一 行 和 一 列表 示 
了 报 文 在 接收 端 解码 时 发 生 了 错误 ， 那么 交叉 点 就 是 出 错位 ， 简 单 的 取 反 就 可 以 
得 到 正确 结果 。 如 果 仅 有 一 行 或 者 仅 有 一 列 或 者 多 行 或 多 列 说 明 校 验 失 败 ， 那 么 
多 比特 错误 可 以 被 检测 到 并 且 会 加 入 一 个 未 纠正 状态 位 。 

对 于 一 个 64 位 报 文 ， 需 要 加 17 个 校 验 位 : 八 个 行 校 验 位 八 个 列 校 验 位 和 一 
个 额外 的 校 验 行列 校 验 位 的 校 验 位 。( 见 图 2. 18)。 

将 报 文 的 每 一 位 想 成 是 用 来 构成 超 立方 体会 更 有 效 一 些 ， 每 个 报 文 在 这 个 超 
立方 体 组 合 中 形成 一 个 特定 的 点 。 如 果 这 个 超 立 方 体 可 以 扩展 ， 这 样 合法 的 数据 
点 可 以 被 相关 的 引起 单位 错误 的 不 合法 点 所 围绕 ， 那 么 解码 器 机 可 以 识别 出 不 合 
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法 点 属于 哪个 合法 点 并 且 将 会 
存储 报 文 原始 正确 的 扩展 形式 。 

在 两 个 合法 数据 点 之 间 再 加 一 列 0 Co 
个 不 合法 点 需要 再 延伸 一 步 
( 见 图 2. 19) 。 与 合法 码 字 不 同 
的 最 小 位 数 称 为 码 距 。 这 第 三 
个 点 就 表明 发 生 了 两 个 错误 。 
因此 ， 这 两 个 合法 数字 编码 点 
很 可 能 是 相等 的 ， 所 以 报 文 是 
可 以 检测 错误 但 是 不 能 纠正 的 。 Po Pi P, P, Py Ps P, Py 


(数据 ) C2 
列 校 验 


YAW fF WN 一 
A 


对 于 一 个 64 位 报 文 ， 一 位 的 错 as 
RRE, 8 2° 个 组 合 对 中 一 定 图 2.18 二 维 ECC 
会 围绕 或 者 包含 这 64 个 组 成 位 18 = 


的 一 种 失效 。 因 此 ， 需 要 总 共 2“*“ 个 代码 组 合 来 识别 每 个 合法 状态 位 相关 的 不 
合法 状态 位 ,或 者 总 共 需 要 2“* "个 数据 状态 。 可 以 用 另外 一 种 表达 方式 : 
2:>m+k+l1 


AP, m 为 报 文 的 位 数 ; & 为 支持 单 错 纠 正 所 必须 加 入 的 正确 的 位 数 。 





不 合法 表示 
| | ( 单 错 ) 
X 一 -一 一 @ X — Y ———— X ( 
合法 数据 1 | 合法 数据 2 
两 个 错误 


图 2.19 ECC 的 码 距 


汉 明 码 代 表 了 基于 超 立 方 体 的 ECC 的 一 种 实现 。 与 之 前 在 块 编码 中 一 样 ， 
一 对 等 价 失效 可 以 定位 一 个 错误 位 的 位 置 。 在 汉 明 码 中 ，% 个 正确 位 确定 了 一 个 
错误 位 的 位 置 。 报 文 必 须 排 布 的 能 够 为 代码 提供 正 交 基 (就 像 块 编码 中 的 行 和 
列 一 样 ) 。 而 且 ， 正 确 位 必须 包含 在 这 个 基 中 。 例 2. 1 给 出 了 一 个 16 位 报 文 的 正 
交 基 和 5 个 已 经 确定 的 正确 位 。 加 入 另外 一 个 第 6 位 后 ， 就 可 以 计算 校 验 整个 m+ 
k+1 位 报 文 。 如 果 从 这 个 正确 位 得 知 有 1 位 可 纠正 位 ， 并 且 得 知 这 新 的 d 位 
中 没有 校 验 错误 ， 那 么 就 可 以 判断 有 两 位 错误 ， 并 且 任 何 形式 的 纠 错 都 可 能 会 造 
成 错误 ， 所 以 不 应 该 尝试 纠 错 。 这 种 编码 通常 被 称 作 SECDED。 

例 2.1 一 个 汉 明 码 实例 。 

假设 有 一 个 16 位 报 文 , m=16, 

2*>16+k+1; PRU, k=5, 
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那么 ， 报 文 就 有 (16 +5) 位 =21 位 。 这 5 个 纠 错位 是 根据 奇偶 校 验 如 下 定 
义 的 ， 基 2 超 立 方 体 : 
ks 16 ~21 位 
k, 8 ~15 位 
k, 4~7, 12 ~15 #120, 21 位 
k, 2, 3, 6, 7, 10, 11, 14, 15 Al 18, 19 位 
k, 1, 3,5,7,9, =, 19, AR 
换 句 话 说，21 位 形成 的 报 文 f ~ 户 位 包含 了 原始 信息 位 m, ~m MHA ky ~ 
ks。 每 个 纠 错位 都 在 它 所 检验 的 组 内 。 
假设 报 文 包含 了 fi ~fa Fl mi ~ mi =0101010101010101。 为 了 解码 简单 ， 把 
纠 错位 仅 放 在 覆盖 制定 的 纠 错 码 位 置 (如 只 有 ky eo 16 位 ) : 
k, =f, 
k, =f, 
ks =f, 
ky =f 
ks =fis 
ERA (m TES, mE fF) 
hhh fe fr Ss ts fo fu fa fo fia fis fis fir fs fio fo fa 
BEk0k1T 01801 0 10 10 k 10 10 1 
所 以 ,根据 奇偶 校 验 ， 
k, =1 
k;=1 
k, =1 
k, =0 
k, =1 
假设 这 个 报 文 传递 但 是 接收 到 的 =0 (KRENZER =k = 1) 。 当 接收 
器 对 着 5 个 校 验 组 进行 重新 计算 时 ， 只 有 一 组 包含 了 fs。 
对 组 内 进行 重新 奇偶 校 验 得 到 : 
ks =0 (在 16 ~21 位 中 没有 错误 ) 
ks=1 
ki =0 
k, =0 
k! =0 
失效 形态 01000 错误 位 (第 8 位 ) 的 二 进 制 表示 ， 必 须 改变 这 一 位 来 纠正 
报 文 。 
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2.7.3 ”解决 制造 缺陷 问题 


传统 的 解决 制造 缺陷 问题 的 方法 是 测试 。 随 着 晶体 管 密度 的 增加 和 整个 芯片 
晶体 管 数量 的 相应 增加 ， 测 试 的 问题 发 展 得 更 快 。 可 测试 的 组 合 对 随 着 晶体 管 的 
数目 呈 指 数 性 增长 。 如 果 没 有 测试 方面 的 突破 ， 据 估计， 芯片 测试 的 费用 将 会 超 
过 其 余 的 制造 费用 。 

如 果 有 可 能 的 话 ， 先 验 性 的 确定 设计 的 完整 性 是 一 件 很 难 的 事情 。 依 据 设计 
验证 的 等 级 ， 不 同 的 自动 设计 工具 是 很 有 用 的 。 在 某 些 情况 下 ， 当 设计 完成 ， 设 
计 的 逻辑 模型 也 已 经 被 验证 。 设 计 验 证 包括 比较 设计 的 逻辑 输出 和 设计 的 预期 逻 
辑 需求 是 否 一 致 。 在 像 存 储 (如 缓存 ) 其 至 是 浮 点 运算 器 区 域内 ,合理 的 验证 
实现 是 可 能 的 。 更 一 般 的 验证 是 正在 进行 研究 的 课题 。 

当然 ， 硬 件 设计 者 通过 可 测试 性 设计 过 程 也 能 做 出 测试 和 验证 方面 的 努 
力 "™“i。 可 用 的 错误 侦 测 硬件 就 是 很 显然 有 助 于 测试 的 。 一 种 可 以 得 到 内 部 存储 
单元 信息 的 测试 技术 叫做 扫描 ( scan) 。 一 个 扫描 链 最 简单 的 形式 包括 对 每 一 个 
存储 单元 有 一 个 分 开 的 人 口 点 和 一 个 出 口 点 。 每 个 点 都 通过 多 项 选择 器 连接 到 一 
些 总 线 上 ， 这 样 就 可 以 独立 地 通过 下 载 或 存储 来 测试 系统 。 在 扫描 技术 中 ， 人 允许 
将 预定 义 的 数据 配置 送 入 存储 单元 ， 然 后 将 输出 特定 的 配置 跟 已 知 的 正确 输出 配置 
进行 比较 。 扫 描 技 术 开 始 于 20 世纪 60 年 代 ， 是 作为 大 型 机 技术 的 一 部 分 而 发 展 起 
来 的 。 它 们 后 来 大 部 分 都 被 遗弃 了 ， 直 到 在 高 密度 块 出 现 的 时 候 才 被 再 次 发 气 。 

扫描 链 需要 大 量 的 测试 配置 来 覆盖 这 么 大 的 设计 。 因 此 ， 即 使 是 扫描 技术 ， 
对 设计 验证 的 潜力 也 是 有 限 的 。 通 过 压缩 模式 所 需要 的 数量 和 结合 各 种 内 置 自 检 
功能 ， 可 以 扩展 更 新 的 扫描 技术 。 


2.7.4 ”存储 和 功能 擦 除 


擦 除 技术 (scrubbing) 是 一 种 在 空闲 或 不 可 用 (如 启动 ) 的 时 候 对 一 个 单 
元 进行 演练 性 测试 的 技术 。 它 经 常 被 用 于 存储 器 。 当 存储 器 空闲 的 时 候 ， 存 储 单 
元 就 被 重复 地 进行 读 写 操作 。 这 种 检测 可 以 探测 到 存储 器 坏 掉 的 部 分 ， 然 后 将 这 
部 分 声明 为 不 可 用 ， 进 程 再 加 载 的 时 候 就 会 避 开 。 

原则 上 ， 相 同 的 技术 也 可 以 被 用 在 功能 部 件 上 〈 如 浮 点 部 件 ) 。 很 明显 ， 如 
果 可 能 有 个 重新 配置 单元 可 以 让 系统 操作 继续 的 话 ， 那 么 将 会 更 有 效 (在 降低 
了 性 能 的 情况 下 )。 


2.8 可 配置 性 


这 部 分 涉及 两 个 主题 ， 包 括 可 配置 性 ， 主 要 关注 设计 的 可 再 配置 性 。 第 一 ， 
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列举 几 条 可 再 配置 性 设计 的 动机 ， 包 括 一 个 简单 的 例子 来 说 明 这 个 基本 的 观点 。 
第 二 ， 估 计 了 一 下 基于 本 章 前 部 分 介绍 过 的 rbe 模型 并 发 性 可 配置 器 件 所 需要 的 
面积 成 本 o 


2.8.1 为 什么 要 可 配置 性 设计 


本 书 第 1 章 介绍 了 采取 可 配置 设计 的 动机 ， 但 主要 是 从 基于 对 管理 高 性 能 的 
IP 核 的 复杂 度 和 避免 跟 制 造 相关 的 风险 和 延迟 的 角度 出 发 的 。 这 里 对 使 用 可 配 
置 性 器 件 ， 如 FPFGA， 再 说 明 三 点 原因 。 这 三 点 原因 基于 本 书 前 面 介绍 的 时 间 、 
面积 和 可 靠 性 方面 的 内 容 。 

时 间 。 因 为 FPGA 尤其 是 细 粒 度 的 FPGA 包含 有 大 量 的 寄存 器 ， 所 以 它们 支 
持 高 流水 线 设 计 。 另 外 一 个 考虑 就 是 并 行 性 。 一 个 基于 FPGA 的 低 时 钟 频率 处 理 
器 通过 定制 电路 的 并 行 执行 ， 能 够 有 相似 甚至 更 高 的 性 能 ， 而 不 是 以 高 速 时 钟 频 
率 来 运行 一 个 顺序 处 理 器 。 相 反 的 ， 微 处 理 器 的 指令 集 和 流水 结构 并 不 一 定 适 合 
一 个 给 定 的 应 用 程序 。 后 面 将 会 通过 一 个 简单 例子 来 说 明 这 一 点 。 

面积 。FPGA 的 可 编程 性 确实 会 带 来 面积 开销 ， 但 是 FPCA 比 ASIC 更 加 简 
化 了 对 先进 制造 工艺 技术 的 应 用 。 所 以 ，FPGA 比 其 他 形式 的 电路 更 能 够 探索 先 
进 的 工艺 。 此 外 ， 一 个 小 的 FPGA 可 以 通过 时 间 分 割 选 择 器 和 时 间 的 配置 来 支持 
一 个 很 大 的 设计 ， 配 置 可 以 允许 选择 执行 时 间 和 所 需要 的 资源 数量 。 下 面 也 将 估 
计 一 下 一 些 基 于 本 章 前 面 介 绍 的 rbe 模型 的 FPGA 设计 的 大 小 。 

可 靠 性 。FPGA 的 规整 性 和 同 质 性 使 得 更 多 的 单元 和 内 部 连接 可 以 加 到 其 结 
构 当 中 。 通 过 这 种 元 余 的 结构 ， 产 生 了 很 多 避免 制造 或 者 运行 错误 的 不 同方 法 。 
此 外 ， 在 不 同 的 半导体 制造 工艺 中 ，FPGA 的 可 配置 性 已 经 成 为 了 一 种 提高 电路 
成 品 率 和 时 钟 的 方法 ?1。 

为 了 说 明 用 FPGA 加 速 应 用 需求 的 可 能 ， 这 里 介绍 一 个 比较 微 处 理 器 和 FP- 
GA 运行 HDTV 程序 的 简单 例子 。HDTYV 规格 为 1920 x 1080 个 像素 ， 或 者 大 约 为 
两 百 万 像素 。 在 30Hz 时 ， 相 应 的 需要 每 分 钟 六 千 万 像素 。 一 个 特定 的 应 用 包括 
了 100 个 操作 ， 所 以 进程 每 秒 钟 大 约 需要 60 亿 次 操作 。 

思考 一 下 ， 一 个 3GHz 的 微 处 理 器 平均 需要 5 个 周期 来 完成 一 个 操作 。 那 
么 ， 它 可 以 支持 每 周期 0. 2 个 操作 ， 总 体 来 说 ， 每 秒 钟 只 能 执行 6 亿 个 操作 ， 是 
只 所 需要 的 进程 频率 的 1/10。 

相反 的 ， 一 个 100MHz 的 FPGA 设计 每 周期 可 以 并 行 完 成 60 个 操作 。 这 个 
设计 能 够 达到 程序 每 秒 钟 60 亿 操 作 的 要 求 ， 是 3GHz 微 处 理 器 的 十 倍 之 多 ， 虽 
然 ， 它 的 时 钟 频率 仅 是 微 处 理 器 的 1/30。 这 种 设计 可 以 以 不 同 的 方式 利用 可 配 
置 性 ， 如 针对 特定 的 执行 数据 利用 实例 制定 优化 来 提高 面积 、 速 度 和 功 耗 ， 或 者 
重新 配置 使 设计 适应 执行 时 间 的 条 件 限制 等 。 对 可 配置 性 更 深入 的 讨论 将 会 在 本 
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书 第 6 章 。 
2.8.2 ”可 配置 器 件 的 面积 估计 


为 了 估计 可 配置 器 件 的 面积 ， 利 用 前 面 讨论 过 的 rhe 作为 基本 方法 。 回 顾 一 
下 ,例如 ， 在 实际 设计 中 ， 六 管 寄存 器 单元 需要 27000", 

Æ Xilinx FPGA 的 一 个 “slice” 中 ， 配 置 、 布 线 和 逻辑 大 概 需要 7000 个 晶体 
管 ， 在 一 个 Altera 器 件 的 逻辑 单元 (LE) 中 大 概 有 12000 个 晶体 管 。 根 据 经 验 ， 
每 个 rbe 包含 大 约 10 个 逻辑 晶体 管 ， 所 以 每 个 slice 包含 700 个 rbe。 一 个 大 的 
Virtex XC2V6000 器 件 包含 33792 个 slice 或 者 说 2365 万 个 rbe 或 者 16400A。 

在 这 种 工艺 下 ,一 个 8 x8 的 乘法 器 将 会 有 35 个 slice 或 24500 个 rhe 或 者 
174。 相 反 的 ， 假 设 包 含 一 个 全 加 器 和 一 个 与 门 的 一 位 乘法 器 单元 在 VLSI 技术 
中 有 大 概 60 个 晶体 管 ， 相 同 的 乘法 器 将 会 有 64 x 60 个 晶体 管 =3840 个 晶体 管 ， 
BN 384rbe， 这 只 是 可 配置 版 本 的 大 概 1/60, 

考虑 到 在 设计 中 乘法 器 经 常会 用 到 ， 现 在 很 多 FPGA 有 专门 的 资源 来 支持 乘 
法 器 。 这 种 方法 将 可 配置 资源 空 出 来 来 实现 其 他 功能 而 不 是 乘法 器 ， 代 价 就 是 使 
得 器 件 不 再 那么 规则 ， 并 且 当 设计 中 用 不 到 它们 的 时 候 会 产生 面积 浪费 。 


2.9 总 结 


在 处 理 器 设计 中 ， 周 期 时 间 是 最 重要 的 。 它 很 大 程度 上 取决 于 工艺 但 是 主要 
受 次 要 因素 的 影响 ， 如 时 钟 问 题 和 流水 分 割 等 。 

一 旦 周期 时 间 被 确定 ， 设 计 者 的 下 一 个 挑战 就 是 通过 使 用 最 小 的 芯片 面积 且 
使 面积 得 到 最 好 的 性 能 ， 来 优化 性 价 比 。 一 个 独立 于 工艺 的 衡量 面积 的 单位 叫做 
rbe， 它 为 在 一 系列 的 重要 结构 因素 中 权衡 存储 层次 提供 了 基础 。 

虽然 高 效 的 利用 芯片 面积 是 很 重要 的 ， 芯 片 的 功 耗 也 同等 重要 (ARE 
至 更 重要 ) 。 权 衡 性 能 - 功 耗 比 更 注重 将 所 需 时 钟 频率 最 小 化 ， 因 为 功 耗 跟 频 率 的 
二 次 方 呈 函 数 关系 。 因 为 低 功 耗 可 以 应 用 于 很 多 应 用 环境 ， 尤 其 是 那些 无 线 和 基 
于 遥感 的 环境 ， 所 以 认真 地 对 器 件 功 耗 进行 优化 决定 了 设计 是 否 成 功 ， 尤 其 是 在 
SoC 设计 中 。 

可 靠 性 通常 是 个 假定 的 要 求 ， 但 是 更 小 的 工艺 尺寸 使 得 设计 对 辐射 和 类 似 的 
冒险 更 加 敏感 。 

根据 应 用 ,设计 者 必须 预 执 行 冒 险 并 结合 特征 来 保存 计算 的 完整 性 。 

SoC 设计 的 最 大 难题 就 是 在 预算 约束 范围 之 内 如 何 充 分 利用 工艺 优势 。 可 配 
置 性 当然 是 新 兴 的 一 种 很 有 用 的 方法 ， 尤 其 是 所 选择 的 FPGA 技术 。 
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2.10 习题 


1. 用 四 路 流水 来 实现 一 个 函数 ， 每 一 路 的 延 时 如 下 (b =0.2) : 


ar ee 
* 执行 时 钟 开销 为 0. 2ns。 

(a) 不 加 入 乘法 周期 的 情况 下 ， 可 以 为 最 高 性 能 提供 多 大 的 周期 时 间 ? 

(b) 执行 这 个 函数 的 总 时 间 是 多 少 (通过 所 有 的 步骤 )? ; 

(c) 如 果 每 级 流水 可 以 分 解 成 次 级 流水 ， 那 么 能 够 为 最 高 性 能 提供 多 大 的 
周期 时 间 ? 

2. 如 果 在 每 个 时 钟 脉冲 到 来 时 有 0. Ins MAPPER (不 确定 性 为 上 0. Ins) ， 
回答 习题 1 中 的 问题 。 l 

3. 通过 允许 流水 中 断 延 时 $ -a 个 周期 (而 不 是 $ - 1 个 周期 ) 来 一 般 化 Sopi 
的 方程 ， 此 时 $ > a=1。 写 出 S。, 新 的 表达 式 。 

4. 一 个 流水 线 有 如 下 功能 单元 和 延 时 (不 包含 时 钟 开销 ): 


0.6 D 


功能 单元 B、D 和 下 可 以 细 分 成 两 个 相等 的 步 台 。 如 果 预 期 的 并 发 流水 线 的 
延 时 为 b=0.25ns， 时 钟 开销 为 0. Ins, HBA: 

(a) 最 优化 的 流水 分 割 数量 为 多 少 ?( 下 舍 入 为 整数 值 ) 

(b) 这 样 周期 时 间 为 多 少 ? 

(c) 利用 这 个 周期 时 间 计 算 流 水 线性 能 。 

5. 一 个 处 理 器 芯片 〈1. 4cm x1.4cm) 需要 生产 5 年 。 在 这 段 时 间 内 ， 预 计 
缺陷 密度 将 会 线性 地 从 0. 5 个 缺陷 /cm 降 为 0. 1 个 缺陷 /em 。20cm 的 晶 圆 成 本 
将 会 线性 地 从 5000 美元 降 到 3000 美元 ，30cm 的 晶 圆 成 本 将 从 10000 美元 降 
为 6000 美元 。 假 设 每 年 生产 好 的 器 件数 是 常数 。 那 么 应 该 选择 哪个 产品 工 
艺 呀 ? 

6. 深度 优化 减 小 单元 尺寸 和 数据 存储 开销 的 DRAM 芯片 设计 是 一 门 特殊 的 
艺术 。 一 个 尺寸 为 135A? 的 单元 ,计算 DRAM 芯片 的 容量 。 工 艺 参数 为 ， 产 率 

















延 时 /ns 
0.7 
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为 80% ，p =0.3 个 缺陷 /em  ， 特 征 尺 寸 为 0.1um， 开 销 中 有 10% 的 驱动 和 放 
大 开销 ， 端 口 、 驱 动 和 保护 环 等 的 开销 为 20% ， 没 有 总 线 和 触发 器 。 
存储 器 的 尺寸 必须 是 偶数 需 2， 计 算 容 量 并 重新 计算 芯片 的 尺寸 ， 算 出 实际 
总 面积 (除去 浪费 的 空间 ) 和 相应 的 成 品 率 。 
7. 利用 习题 6 中 的 假设 ， 计 算 512”x1 的 芯片 的 成 本 。 假 设 一 个 直径 为 
30cm 的 唱 圆 的 价格 为 15000 美元 。 
8. 假设 一 个 2.3cm 的 芯片 可 以 以 5000 美元 的 成 本 在 一 个 20cm FAB) ESE 
成 ， 也 可 以 以 8000 美元 的 成 本 在 30cm 的 晶 圆 上 完成 。 在 缺陷 率 分 别 为 0. 2 个 缺 
Ki cm 和 0. 5 个 缺陷 /cm 的 情况 下 比较 单个 芯片 的 有 效 成 本 。 
9. 根据 成 品 率 方程 的 推导 过 程 ， 证 明 : 
P(t) =eT 
10. 证 明 : 3 模块 系统 的 2 个 模块 失效 预 执行 时 间 :为 
t =T x log,2 
提示 : 有 3 个 模块 ， 任 意 2 个 或 3 个 模块 失败 ， 则 系统 失败 。 
11. 为 32 位 的 报 文 设计 汉 明 码 。 将 检测 位 放 在 最 终 报 文中 。 
12. 假如 想 为 64 位 报 文 设计 一 个 双 错 矫正 汉 明 码 。 那 么 需要 多 少 个 检测 位 ? 
请 解释 。 


3.1 引言 


处 理 器 有 多 种 类 型 和 不 同 的 用 途 ， 虽 然 很 多 人 都 将 目光 聚焦 在 服务 器 和 工作 
站 上 运行 的 高 性 能 处 理 器 ， 但 从 数量 上 讲 ， 高 性 能 处 理 器 只 占 每 年 生产 处 理 器 的 
一 小 部 分 。 图 3. 1 所 示 为 世界 范围 处 理 器 年 产量 概况 〈 不 根据 价格 ) 。 
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本 章 和 处 理 器 细节 

本 章 包含 处 理 器 设计 上 的 问题 ， 特 别 是 面向 高 性 能 应 用 的 高 级 处 理 器 。 已 经 
确定 所 选 处 理 器 的 读者 以 选择 跳 过 一 些 细节 ， 如 分 支 预测 和 超标 量 体 系 结构 控制 
这 些 部 分 ， 这 些 章节 已 用 星 号 ( * ) 注 明 。 

这 些 细节 对 于 选择 处 理 器 的 读者 来 说 也 是 重要 的 ， 主 要 由 于 以 下 两 个 原因 : 

1. 年 复 一 年 ，SoC 处 理 器 和 系统 都 在 向 越 来 越 复 杂 的 方向 发 展 ，SoC 的 设计 
者 需要 面 对 这 些 越 来 越 复杂 的 处 理 器 。 

2. 处 理 器 性 能 评估 工具 (如 SimpleScalar“! ) 提供 指定 问题 的 选项 ， 如 分 
支 预测 和 相关 参数 。 

对 面向 应 用 指令 处 理 器 ( 见 本 书 1.3 节 ) 感 兴趣 的 读者 ， 可 以 在 本 书 6.3 
节 、6.4 节 、6.8 节 找 到 相应 的 材料 。 
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很 明显 ， 控 制 器 、 媒 人 式 控 制 器 、 数 字 信号 处 理 器 等 是 占 统治 地 位 的 处 理 
器 ， 大 部 分 的 精力 都 放 在 设计 这 些 处 理 器 上 。 市 场 的 增长 规律 的 数据 也 能 同样 说 
明 SoC 和 大 型 微 处 理 器 的 需求 在 以 接近 3 倍 的 微 处 理 器 单元 (Microprocessor Unit, 
MPU) 的 速度 增长 〈 见 图 3. 2) 。 


ERKE (%) 
iS) 





计算 型 MPU Meu p 
3.2， 微 处 理 器 和 控制 器 的 年 增长 情况 
特别 在 SoC 类 型 的 应 用 方面 ， 处 理 器 本 身 只 是 一 个 占用 较 少 面积 的 小 组 件 ， 
SoC 设计 经 常 要 运用 许多 不 同类 型 适合 应 用 的 处 理 器 。 通 常 ， 非 关键 处 理 器 以 设 
HOCH (UIP) 的 形式 获取 (购买 ) 并 集成 到 SoC 设计 中 。 因 此 ， 一 个 专用 的 
SoC 设计 可 以 整合 其 他 人 士 设计 的 通用 处 理 器 核 。 表 3. 1 给 出 了 利用 IP 优化 设 
计 以 获取 更 优 的 面积 -时 间 性 能 ，SoC 设计 中 选择 不 同 级 别 IP 有 各 自 的 相对 优势 。 
表 3.1 利用 下 优化 设计 以 获取 更 优 的 面积 -时 间 性 能 


设计 级 别 相关 预期 面积 x 时 间 
纯 物 理 级 


1.0 
物理 级 


RTL 或 ASIC 级 














x til IP BERK 
综合 后 的 IP 固 核 








10. 0 ~100.0 


3.2 SoC 处 理 器 的 选择 


3.2.1 概述 


对 于 许多 SoC 设计 的 情况 ， 选 择 处 理 器 是 最 重要 的 工作 ， 而 且 在 某 种 意义 上 
是 最 受 限 的 工作 。 处 理 器 必须 运行 一 个 特定 系统 软件 ， 所 以 为 了 满足 这 一 功能 ,至 
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少 需 要 选择 一 个 处 理 器 ， 通 常 是 通用 处 理 器 (General Purpose Processor, GPP), 在 
计算 限制 的 应 用 中 ， 最 基本 的 初始 设计 推力 是 确保 系统 包含 一 个 配置 和 设置 参数 后 
能 满足 需求 的 处 理 器 。 在 某 些 时 候 ， 可 能 会 结合 这 些 处 理 器 ， 但 这 通常 是 一 种 优化 
的 考虑 ， 应 该 在 后 续 工 作 中 进行 。 在 决定 处 Mian 
理 器 性 能 和 系统 性 能 时 ， 将 内 存 和 互联 组 件 
当做 一 种 简单 的 延迟 元 素 ， 这 些 被 视 为 理想 

理想 互联 (固定 访 存 时 
间 和 充足 的 带宽 ) 






化 组 件 ， 因 为 它们 的 行为 被 简化 ， 但 这 种 理 
想 化 需要 保证 结果 特性 是 可 以 实现 的 。 理 想 
化 的 组 件 的 性 能 应 该 保守 估计 。 

图 3. 3 所 示 为 SoC 上 的 处 理 器 模型 ， 是 
初始 化 设计 流程 中 的 处 理 器 模型 。 图 3. 4 给 
出 了 选择 处 理 器 核 的 流程 。 选 择 计算 限制 型 AeA ER 
应 用 处 理 器 时 的 流程 有 所 不 同 ， 因 为 可 能 需 i 
要 考虑 实时 性 需求 ， 它 必须 由 一 个 所 选 处 理 图 3.3 SoC 上 的 处 理 器 模型 
器 实现 ， 在 初始 化 SoC 设计 阶段 的 早期 就 应 该 成 为 主要 的 考虑 要 素 。 处 理 器 的 选 
择 和 配置 应 该 产生 一 个 看 似 完全 满足 规格 说 明 上 列 出 的 性 能 和 功能 需求 的 初始 化 
SoC 设计 。 








初始 化 计算 和 实时 需求 


计算 限制 


增加 一 个 核 并 
重新 参数 化 





是 
初始 化 设计 完成 


图 3.4 选择 处 理 器 核 的 流程 
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3.2.2 实例 : 软 处 理 器 


“ 软 核 ” 指 的 是 一 个 比特 流 形式 的 指令 处 理 器 设计 。 它 可 以 用 于 编程 FPCA 
设备 ， 尽 管 这 需要 大 量 的 面积 、 能 耗 、 时 间 的 开销 。 但 运用 这 样 的 设计 有 以 下 4 
个 主要 的 原因 : 

1. 降低 系统 级 综合 的 成 本 。 

2. 在 仅 有 一 点 不 同 的 多 种 设计 中 进行 设计 重用 。 

3. 产生 一 个 微 处 理 器 /外 围 设备 组 合 的 精确 匹配 。 

4. 在 未 来 提供 保护 以 防止 微 控 制 器 的 不 间断 更 新 。 

主要 的 指令 处 理 器 软 核 包 括 以 下 几 个 : 

Nios IC2] : 由 美国 Altera 公司 开发 ， 用 于 它们 的 FPGA 系列 和 ASIC, 

MicroBlazet258] .由 美国 Xilinx 公司 开发 ， 用 于 它们 的 FPGA 和 ASIC 系列 上 。 

OpenRISC'™?) ;一 个 免费 开源 的 软 核 处 理 器 。 

Leon!) ， 另 一 个 免费 开源 的 软 核 处 理 器 ， 实 现 了 一 个 完全 的 SPARC v8 指 
令 集 结构 。 另 外 它 还 包含 一 个 可 选 的 高 速 浮 点 部 件 GRFPU。GRFPU 可 以 下 载 但 
是 并 不 开源 ， 只 能 用 于 评估 和 研究 。 

OpenSparc[22] : 这 是 一 个 SPARC T1 核 ， 它 在 FPGA 上 支持 单线 程 和 四 线程 。 

这 些 指 令 处 理 器 都 有 很 多 显著 特征 ， 但 实际 上 ， 它 们 都 支持 一 个 32 位 RISC 
”体系 结构 (OpenSPARC 除外 ， 它 是 64 位 的 ) ， 都 包含 单 发 射 五 级 流水 级 、 可 配 
置 的 数据 /指令 缓存 ， 同 时 支持 Gnu， 编 译 套 装 (Gnu Compiler Collection, GCC) 
编译 工具 链 。 它 们 还 有 一 种 总 线 结构 ， 适 合 增加 额外 的 处 理 单元 当做 主 单元 或 从 
单元 来 加 速 运算 ， 还 有 一 些 处 理 器 更 进一步 允许 增加 自 定 指令 或 协 处 理 器 。 

表 3. 2 给 出 了 一 些 软 处 理 器 的 特征 ， 针 对 不 同 SoC 特征 进行 了 简单 的 比较 。 
值得 注意 的 是 ，MIPS 的 测量 数值 是 从 市 场 材 料 获得 的 ， 可 能 会 根据 特定 处 理 器 
的 具体 配置 出 现 较 大 程度 的 波动 。 


表 3.2 软 处 理 器 的 一 些 特征 
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简单 比较 一 下 在 本 节 前 半 部 分 评估 的 一 个 32 位 处 理 器 ， 在 没有 浮 点 部 件 的 
情况 下 面积 为 60A， 只 是 表 3. 2 所 示 的 软 处 理 器 的 1/30 ~ 1/15。 


3.2.3 ”实例 : 处 理 器 核 选择 


下 面 用 两 个 例子 来 阐明 图 3. 4 所 示 的 步骤 。 

例 1 处 理 器 选择 ， 通 用 核 的 路 径 。 

考虑 图 3.4 所 示 的 “其 他 限制 ”的 路 径 并 关注 一 些 关 系 的 权衡 ， 对 于 这 种 
简单 的 分 析 方法 ， 不 需要 去 理会 处 理 器 的 细节 ， 只 需要 假设 处 理 器 遵循 本 书 第 2 
章 所 述 的 A-T? 规 律 。 假 设 一 个 初始 化 设计 拥有 单位 1 的 性 能 ， 运 用 了 100Krbe 的 
面积 ， 想 要 更 高 的 速度 和 更 多 的 功能 ， 那 么 如 果 我 们 将 性 能 加 倍 ( 将 处 理 器 的 
减 小 一 半 ) ， 这 将 使 面积 增加 到 400Krbe 并 且 功 耗 增加 8 倍 ， 每 个 rhe 像 以 前 一 
样 对 应 两 倍 的 功 耗 ， 所 有 的 性 能 由 内 存 系 统 调控 。 将 性 能 (指令 执行 率 ) OTR 
的 同时 会 使 单位 时 间 缓 存 失效 次 数 加 倍 。 这 一 现象 对 已 实现 的 系统 的 性 能 影响 显 
著 ， 它 依赖 平均 缓存 失效 时 间 。 更 多 的 介绍 可 以 参见 本 书 第 4 章 。 

假设 缓存 失效 现象 显著 降低 实现 系统 的 性 能 ， 为 了 恢复 性 能 ， 需 要 增加 缓存 
的 容量 。 本 书 第 4 章 引 用 了 一 个 一 般 规律 ， 降 低 一 半 的 缓存 失效 率 需要 增加 一 倍 
的 缓存 容量 。 如 果 初 始 化 缓存 容量 也 是 100Krbe， 那 么 新 的 设计 需要 600Krbe, 
并且 它 的 功 耗 可 能 对 应 初始 化 设计 的 10 倍 左右 。 

这 样 是 否 值得 呢 ? 如 果 面 积 充足 且 功 耗 并 不 是 一 个 显著 的 约束 ， 那 么 可 能 这 
是 值得 的 。 更 快 的 处 理 器 缓存 组 合 可 以 提供 重要 的 功能 ， 如 额外 的 安全 检查 或 输 
入/ 输出 (WO0) 能 力 。 在 这 一 点 上 ， 系 统 的 设计 者 要 参考 设计 规格 说 明 。 

W2 处 理 器 选择 ， 计算 核 路 径 。 

如 图 3.4 所 示 ， 目 前 只 考虑 了 计算 限制 型 路 径 的 权衡 比 ， 假 设 应 用 通常 情况 
下 是 可 并 行 的 ， 并 且 已 有 一 些 不 同 的 设计 方式 。 一 种 是 10 级 流水 的 矢量 处 理 器 ， 
另 一 种 是 多 个 简单 处 理 器 。 应 用 在 矢量 处 理 器 (面积 为 300Krbe) 上 的 性 能 为 1， 
在 单个 简单 处 理 器 (面积 为 100rbe) 上 的 性 能 为 0.5。 为 了 满足 实时 计算 的 需 
求 ， 需 要 将 其 性 能 增加 到 1. 5。 

这 时 必须 评估 实现 性 能 目标 的 各 种 方法 : 方法 一 ， 增 加 流水 级 级 数 并 将 矢量 
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流水 线 数 量 加 倍 ， 这 样 满足 了 性 能 的 目标 ， 面 积 达到 了 600Krbe 并 且 功 耗 翻 倍 ， 
而 时 钟 率 频率 保持 不 变 ; 方法 二 ， 运 用 一 个 互联 的 简单 处 理 器 “阵列 ”， 这 种 
多 处 理 器 阵列 受 限于 内 存 和 互联 竞争 (本 书 第 5 章 有 更 多 这 些 效应 的 详 述 ) 。 
为 了 实现 性 能 目标 ， 需 要 至 少 4 个 处 理 器 : 3 个 用 于 基本 目标 ，1 个 用 于 处 理 
额外 开销 。 这 时 的 面积 为 400Krbe， 加 上 互联 面积 和 额外 的 内 存 共享 电路 ， 这 
可 能 还 要 增加 另外 的 200Krbe。 所 以 仍然 是 有 面积 或 功 耗 方面 一 致 的 两 种 方 
法 的 。 

那么 怎样 从 两 者 中 挑选 呢 ? 通常 可 供 选 择 的 数量 比 2 更 大 。 这 就 取决 于 次 要 
的 设计 目标 ， 下 面 列 出 需要 考虑 的 事项 : 

1. 应 用 可 以 简单 地 被 划分 为 同时 支持 两 种 方法 吗 ? 

2. 两 种 方法 有 哪些 软件 支持 (编译 器 、 操 作 系 统 等 )? 

3. 可 以 运用 多 处 理 器 方法 得 到 额外 的 容错 吗 ? 

4. 多 处 理 器 方法 可 以 和 其 他 计算 路 径 结合 吗 ? 

5. 两 种 设计 改进 方法 中 的 一 种 是 否 有 显著 的 设计 实现 成 本 ? 

显而易见 ， 系 统 设 计 者 有 很 多 问题 需要 回答 ， 工 具 和 分 析 仅 消除 了 不 符合 要 
求 的 方法 ， 在 这 之 后 ， 真 正 的 系统 分 析 开 始 了 。 

本 章 下 面 的 部 分 涉及 对 处 理 器 的 理解 ， 特 别 是 微 处 理 器 的 级 别 和 它 怎 样 影响 
性 能 。 这 对 于 评估 性 能 和 应 用 模拟 工具 是 十 分 重要 的 。 
达到 性 能 指标 的 方法 

3.2 节 给 出 的 重要 应 用 的 实例 是 一 个 非常 简化 的 模型 。 那 么 应 该 怎样 设计 
来 符合 A-T* 设 计 规 律 或 者 实现 更 好 的 性 能 呢 ? 其 中 的 秘诀 在 于 理解 设计 的 可 
行 性 ， 并 自如 地 从 设计 备 选 方案 中 选择 。 为 了 实现 这 一 点 ， 必 须 理 解 现代 处 理 
器 的 复杂 度 和 它 所 带 来 的 衍生 物 。 本 章 给 出 了 大 量 的 备 选 方案 ,但 仅 列 出 了 最 
重要 的 ， 还 许多 其 他 技术 可 能 在 特定 环境 下 对 设计 者 有 效 。 理 解 的 作用 是 无 法 
替代 的 。 


3.3 处 理 器 体系 结构 中 的 基本 概念 


处 理 器 体系 结构 由 处 理 器 指令 集 组 成 。 虽 然 指令 集 暗 指 许多 实现 〈 微 体系 
结构 ) 细节 ， 具 体 的 实现 相 比 指令 集 需 要 的 还 要 更 多 。 它 是 物理 设备 面积 -时 间 - 
功 耗 限制 权衡 的 综合 ， 用 于 优化 特定 的 用 户 需求 。 


3.3.1 指令 集 


对 于 大 多 数 处 理 器 来 说 ， 指 令 集 基于 一 组 用 于 存放 操作 数 和 地 址 的 寄存 器 ， 
这 些 寄存 器 组 的 大 小 为 8 ~ 64 字 甚 至 更 多 ， 每 一 个 字 由 32 ~ 64 位 组 成 。 另 外 ， 
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还 经 常会 有 一 组 额外 的 浮 点 寄存 器 (32 ~ 128 位 )。 一 个 典型 的 指令 集会 制定 一 
个 程序 状态 字 ， 它 由 多 种 类 型 的 控制 状态 信息 组 成 包括 由 指令 设置 的 条 件 码 
(Condition Code，CC) 。 普 通 指令 集 可 以 被 分 为 两 种 基本 类 型 : 加 载 / 存 储 (L/ 
S) 体系 结构 和 寄存 器 /内 存 (R/M) 体系 结构 。 

L/S 体系 结构 的 指令 集 包 括 RISC 微 处 理 器 。 在 执行 前 参数 必须 已 经 存在 寄 
存 器 中 。ALU 指令 的 源 操作 数 和 目标 都 指定 在 寄存 器 中 。L/S 体系 结构 的 优点 在 
于 执行 的 规则 性 和 指令 译 码 的 简单 性 ， 一 个 简单 时 序 的 简单 指令 集 易 于 实现 。 

RM 体系 结构 包含 的 指令 的 操作 数位 于 寄存 器 或 者 其 中 一 个 内 存 中 。 在 R 
M 体系 结构 中 ， 一 个 ADD 指令 可 以 将 一 个 寄存 器 的 值 和 内 存 中 的 值 相 加 ， 结 果 
存在 一 个 寄存 器 中 。R/M 指令 集 是 由 IBM 大 型 机 和 Intel x86 (现在 成 为 Intel 
IA32) 演变 而 来 。 

指令 集 的 权衡 是 针对 面积 -时 间 的 折 中 。R/M 方法 提供 了 更 精确 的 程序 表 
M, 较 L/S 方 法 相 比 用 到 了 更 少 的 不 同 长 度 的 指令 ， 程 序 在 内 存 中 占据 更 少 的 空 
间 ， 指 令 缓存 也 可 以 因此 做 得 更 oe Dose 
小 。 多 种 指令 长 度 对 于 译 码 而 言 32 位 
更 加 困难 ， 多 种 指令 的 译 码 需要 
预测 每 一 条 指令 的 起 点 ，R/M 处 Ea 
理 器 需要 更 多 的 电路 (和 面积 ) 
用 于 取 指 和 译 码 。 通 常 ，Intel Lad 
x86 在 高 时 钟 频率 下 的 成 功 实现 
表明 没有 一 种 方法 的 优点 可 以 完 ARM 的 L/S 机 器 


全 战胜 另 一 种 方法 。 
aa Lele] we 

器 的 指令 长 部 和 格式 。RISC 机 

器 运用 固定 的 32 位 的 指令 大 小 S| COX] | op | Ra | me | me | name 

或 者 具备 64 位 指令 扩展 格式 的 

rae re ` ee R/M 机 器 ， 如 Intel IA32、IBM 大 型 机 

yste Bl TE F zSeries 

大 型 机 运用 了 多 种 长 度 的 指令 。 6 | OF [ras s| Rea | me 

Intel 用 8 位 、16 位 、32 位 的 指 

令 , IBM 用 16 位 、32 位 和 48 ist | op fras 2 a 

位 的 指令 。 受 限 的 寄存 器 组 大 

NAWA rexnimese elo ae sme 

提供 了 可 能 性 。 大 小 的 可 变性 

和 R/M 格式 提供 了 很 好 的 代码 图 3.5 一 些 典型 处 理 器 的 指令 长 度 和 格式 
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密度 。 但 与 此 同时 译 码 也 变 得 越发 复杂 。 基 于 RISC 的 ARM 格式 是 一 种 有 趣 的 
折 中 方式 ， 它 提供 了 带 有 内 部 条 件 域 的 32 位 指令 集 ， 所 以 指令 可 以 被 条 件 执行 。 
另外 ， 它 还 提供 了 16 位 指令 集 ( 称 为 thumb 指令 ) 。 这 些 使 这 一 指令 集 既 具备 
译 码 的 高 效 性 又 具备 代码 的 高 密度 性 。 

指令 集 扩 展 的 近期 发 展 将 在 本 书 第 6 章 详细 介绍 。 


3.3.2 一些 指令 集 习 惯 


# 3.3 给 出 了 指令 集 助 记 符 操 作 ， 包 括 了 一 些 基 本 指令 操作 和 常用 助 记 符 表 
示 。 通 常 ， 不 同 的 数据 类 型 (BAB AH) 会 运用 不 同 的 指令 。 为 了 指明 操 
作 特 定 的 数据 类 型 ， 操 作 助 记 符 会 扩展 出 一 个 数据 类 型 的 指示 部 分 ， 所 以 
“OP. W” 可 能 指示 一 个 整数 型 的 OP 指令 ， 而 “OP.F” 指 示 一 个 浮 点 型 的 操作 。 
表 3.4 给 出 了 典型 的 数据 类 型 修饰 后 缀 。 一 个 典型 的 指令 形式 为 “OP. M 目标 ， 
源 操 作 数 1， 源 操作 数 2”。 源 和 目标 所 指定 的 形式 为 一 个 寄存 器 或 者 一 个 内 存 地 
址 (通常 指定 为 一 个 基地 址 加 上 一 个 偏 移 地 址 ) 。 


表 3.3 指令 集 助 记 符 操作 














助 记 符 操作 操作 

ADD 加 法 存储 多 个 寄存 器 

SUB 减法 MOVE | 传送 ( 寄 从 寄存 器 到 寄存 器 或 从 内 存 到 内 存 ) 
MPY 乘法 SHL 左 移 

CMP 比较 | BR | 非 条 件 分 支 

LD 加 载 ( 从 内 存 到 寄存 器 ) RERE 

| ere | | 


表 3.4 典型 的 数据 类 型 修饰 后 缀 (OP. modifier) 











浮 点 (32 位 ) 
双 精 度 浮 点 (64 位 ) 
字符 或 8 位 形式 的 十 进 制 数 


半 字 (16 位 ) 
字 (32 位 ) 


3.3.3 分 支 
分 支 〈 或 跳 转 ) 管理 程序 的 控制 流 ， 它 们 通常 由 非 条 件 分 支 BR、 条 件 分 支 
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BC 和 子 程序 调用 和 返回 (连接) 组 成 。BC 指令 检测 条 件 码 CC 的 状态 ，CC 的 
状态 通常 由 程序 状态 或 控制 寄存 器 中 的 四 位 组 成 ,通常 而 言 ，CC 由 ALU 指令 设 
置 来 记录 一 系列 结果 (编码 成 2 位 或 4 位 )。 例 如 ， 以 下 4 组 可 用 来 说 明 指令 是 


否 产 生 : 
1. 一 个 正 数 结果 。 
2. 一 个 负数 结果 。 
3. 一 个 零 结 果 。 
4. 一 个 溢出 。 


图 3.6 给 出 了 使 用 条 件 码 的 BC 指令 实例 。 非 条 件 转移 BR 所 有 掩 码 屏蔽 位 
设置 为 “1” 的 条 件 转移 方式 ， 可 以 让 每 个 指令 包含 一 个 屏蔽 位 来 让 所 有 指令 可 
以 条 件 执行 (就 像 ARM 指令 集 一 样 ) 。 


设置 条 件 码 指令 结果 对 应 的 条 件 码 设置 
十 P= 1000 
- N=0100 
0 Z=0010 
Rih O=0001 
程序 状态 。 _ = 
条 件 码 
使 用 条 件 码 


位 
一 个 BC 指令 检查 一 个 特定 的 条 件 或 几 个 位 结合 的 条 
| BC || 作 。4 位 的 屏 项 位 与 4 个 条 件 码 状态 PNZO 相 与 ， 所 
有 的 结果 位 进行 或 操作 决定 输出 结果 。 若 结果 为 
“1”， 则 分 支 跳 转 〈 例 如 是 成 功 跳 转 ) ; 如 果 结 
果 为 “0”， 则 分 支 不 跳 转 顺序 执行 指令 。 


屏蔽 位 = 0000 是 不 跳 转 操作 ， 因 为 所 有 条 件 码 与 屏蔽 位 相 与 置 0 


屏蔽 位 =1111 是 非 条 件 分 支 指令 ， 因 为 前 面 计算 产生 的 结果 (P N Z O) 
在 与 屏蔽 位 相 与 时 至 少 存在 一 位 为 丰 


屏蔽 位 = 1010 选择 P 或 Z 作 为 条 件 ， 如 果 结 果 宇 0 则 分 支 跳 转 (如 BC.GE) 
屏蔽 位 = 0110 ”类 似 地 ， 选 择 N 或 Z 作 为 条 件 ， 如 果 结 果 <0 分 支 跳 转 (如 BC.LE) 


图 3.6 使 用 条 件 码 的 BC 指令 实例 













3.3.4 ”中断 和 异常 


BERAR SoC 的 控制 器 拥有 外 部 中 断 和 内 部 异常 ， 这 意味 着 它 需 要 中 断 管 
理 器 (或 处 理 器 ) 程序 的 帮助 ， 这 些 装 置 可 以 以 如 下 的 各 种 方式 进行 管理 和 支持 ; 
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1. 用 户 请 求 与 被 迫 产 生 。 前 者 经 常 涉及 一 个 错误 的 操作 ， 如 除 零 操作 ; 后 
者 通常 由 外 部 事件 引起 ， 如 设备 错误 。 | 

2. 可 屏蔽 与 不 可 屏蔽 。 前 者 可 以 通过 设置 中 断 屏 项 位 屏蔽 ; 后 者 不 能 屏蔽 。 

3. 中 止 与 恢复 。 除 零 这 样 的 操作 事件 会 中 止 普通 的 处 理 过 程 ， 之 后 处 理 器 
可 以 恢复 操作 。 

4. 异步 与 同步 。 当 一 个 中 断 事件 在 程序 的 执行 过 程 中 触发 时 ， 中 断 事件 可 以 
由 异步 于 处 理 器 时 钟 的 外 部 设备 产生 ， 也 可 以 由 与 处 理 器 时 钟 同步 的 时 钟 产 生 。 

5. 指令 间 与 指令 内 。 中 断 事件 可 以 产生 于 两 条 指令 之 间或 者 一 条 指令 执行 
的 过 程 中 。 

通常 而 言 ， 上 述 两 者 的 第 一 个 选项 容易 被 实现 而 且 可 能 在 当前 指令 完成 之 后 
被 处 理 。 设 计 者 为 了 约束 设计 需要 精确 的 例外 。 例 外 的 精确 的 意思 是 ， 在 例外 发 
生前 的 所 有 指令 都 被 正确 完成 ， 而 例外 发 生 后 的 所 有 指令 都 没有 改变 状态 。 当 例 
外 被 处 理 结束 后 ,后续 的 指令 重新 开始 执行 。 

男 外 一 些 中 断 异 常事 件 会 同时 产生 甚至 出 现 相互 罕 套 的 形式 ， 所 以 需要 设置 
它们 的 优先 级 ， 控 制 器 和 通用 处 理 器 拥有 特殊 的 部 件 来 处 理 这 些 问 题 并 保留 系统 
的 现场 来 继续 执行 异常 。 


3.4 ”处 理 器 微 体系 结构 的 基本 概念 


几乎 所 有 现代 处 理 器 都 应 用 了 一 种 指令 执行 流水 级 的 设计 。 简 单 的 处 理 器 每 
个 周期 只 发 射 一 条 指令 ， 其 他 处 理 器 可 以 发 射 多 条 。 很 多 藤 人 式 和 信和 号 处 理 器 运 
用 简单 的 每 周期 发 射 单 指令 的 设计 方法 ， 但 是 大 多 数 现代 台式 机 、 笔 记 本 式 计 算 
机 和 服务 器 都 使 用 的 是 每 周期 多 指令 发 射 的 方式 。 

每 一 个 处 理 器 〈 见 图 3.7) 具备 内 存 系统 、 执 行 部 件 (数据 通路 ) 和 指令 
部 件 。 缓 存 和 内 存 的 速度 越 快 ， 读 取 指 令 和 数据 CIF 和 DF) 所 需 的 周期 就 越 
少 ; 运算 部 件 越 多 ， 运 算 周期 (EX) 就 越 小 。 缓 存 和 执行 部 件 的 控制 是 由 指令 


部 件 完成 的 。 
指令 部 件 


指令 寄存 器 


指令 缓冲 


互 锁 


地 址 产生 





图 3.7 处 理 器 部 件 
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流水 线 的 原理 和 控制 有 多 种 可 能 性 : 流水 线 可 以 在 每 一 周期 执行 一 条 或 多 条 
指令 ; 指令 的 译 码 和 /或 执行 可 能 遵循 程序 次 序 也 可 能 不 遵循 。 事 实 上 ， 在 多 线 
程 流水 线 中 不 同 程序 的 指令 也 可 能 在 同一 周期 执行 。 表 3.5 给 出 了 一 些 流水 线 处 
理 吉 的 类 型 。 


表 3.5 一 些 流水 线 处 理 器 的 类 型 


每 周期 译 码 指令 数 t # 通常 情况 相对 性 能 
所 有 动作 有 序 





所 有 D 和 所 有 WB 有 序 











多 线程 超标 量 结构 通常 为 2 个 线程 


不 管 是 什么 类 型 的 流水 线 处 理 器 , “停顿 (break) ”或 延迟 是 限制 流水 线性 
能 的 主要 因素 。 

出 现 延 迟 或 停顿 主要 由 以 下 4 种 原因 中 的 一 种 产生 : 

1. 数据 冲突 一 一 源 操作 数 不 可 用 。 这 种 情况 可 能 由 多 种 原因 产生 的 。 通 常 
当前 的 指令 需要 的 操作 数 是 前 面 未 完成 的 指令 的 结果 。 扩 展 操作 数 的 缓冲 可 以 使 
这 种 效应 最 小 化 。 

2. 资源 竞争 。 多 个 连续 的 指令 共用 同一 资源 ， 或 者 是 执行 时 间 较 长 的 指令 
延误 了 后 续 指 令 的 执行 。 增 加 资源 〈 浮 点 部 件 、 寄 存 器 端口 和 乱 序 执行 ) 可 以 
减少 竞争 。 

3. 运行 延迟 〈 仅 在 顺序 执行 中 出 现 ) 。 当 指令 必须 按照 程序 顺序 完成 WB 
(SE) 阶段 时 ， 任 何在 执行 阶段 〈 如 乘法 或 除法 指令 ) 的 延迟 可 能 会 推迟 流水 
线 中 执行 的 指令 。 

4. 分 支 。 流 水 线 由 于 分 支 的 结果 和 /或 在 流水 线 继续 执行 前 读 取 分 支 目标 指 
令 而 延迟 。 分 支 预测 ， 分 支 表 和 缓冲 可 以 用 来 将 分 支 的 效应 最 小 化 。 

3.5 节 将 关注 简单 流水 线 的 控制 和 基本 流水 线 的 操作 。 这 些 简 单 的 处 理 器 有 
最 小 的 复杂 度 ， 但 是 却 会 承受 最 多 的 突 发 事件 (大 多 数 由 分 支 产生 ) 。 接 下 来 将 
考虑 在 流水 线 中 和 部 件 之 间 负 责 管理 数据 传输 的 缓冲 。 由 于 最 优 的 流水 线 布局 
(流水 线 级 数 ) 与 停顿 发 生 的 频率 密切 相关 ， 将 关注 分 支 和 减 小 分 支流 水 线 延迟 
效应 的 技术 ; 然后 ， 关 注 多 指令 执行 和 更 健全 的 流水 线 控制 。 表 3.6 给 出 了 一 些 
SoC 处 理 吉 的 特性 。 
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表 3.6 一 些 SoC 处 理 器 的 特性 


re a 












Freescale e6000101] 











ClearSpeed CSX600!59! 






PlayStation 20147,187] 






AMD Geode[14] 


3.5 指令 处 理 的 基本 元 素 


一 个 指令 单元 由 指令 定义 的 状态 寄存 器 、 指 令 寄存 器 、 指 令 缓冲 器 、 译 码 器 
和 一 个 互 锁 部 件 组 成 。 指 令 缓冲 器 的 功能 是 将 指令 读 取 到 寄存 器 中 ， 使 指令 可 以 
快速 进入 指定 位 置 等 待 译 码 。 译 码 器 负责 控制 缓存 、ALU 和 寄存 器 等 。 在 流水 
线 系统 中 指令 部 件 的 排序 通常 由 硬件 严格 管理 ， 但 是 运算 部 件 可 能 被 微 程序 控 
制 ， 所 以 每 一 个 进入 运行 阶段 的 指令 会 有 一 个 与 自身 相关 的 微 指令 。 互 锁 部 件 的 
职责 是 保证 并 行 执行 的 多 条 指令 得 到 完全 顺序 执行 一 样 的 结果 。 

由 于 指令 在 各 个 阶段 被 执行 ， 所 以 即便 是 简单 的 流水 线 处 理 器 也 有 许多 设计 
和 权衡 策略 。 

图 3. 8 所 示 的 指令 部 件 展示 了 处 理 器 控制 或 指令 部 件 和 与 内 存 的 基本 交互 
通路 。 
从 缓存 来 的 IF 
IF 地 址 





图 3.8 指令 部 件 
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3.5.1 指令 译 码 器 和 互 锁 


当 一 条 指令 译 码 时 ， 译 码 器 必须 为 这 条 指令 提供 除了 控制 和 序列 信息 外 更 多 
的 信息 。 当 前 运行 的 指令 是 否 合理 ， 取 决 于 流水 线 内 的 其 他 指令 。 译 码 器 进行 以 
下 工作 〈 见 图 3.9) : 

1. 调度 当前 指令 。 当 产生 数据 相关 
(如 地 址 产生 或 AG 周期 ) 或 产生 例外 
(如 不 在 旁 路 转换 缓冲 TLB 中 ) 和 缓存 失 
效 时 指令 可 能 被 延迟 。 

2. 调度 后 续 指令 。 为 了 保证 有 序 地 完 
成 ， 如 当前 指令 有 多 个 执行 周期 ， 后 续 的 
指令 可 能 被 延迟 。 

3. 在 分 支 指令 处 选择 (或 预测 路径。 

数据 互 锁 (图 3.8 所 示 的 组 件 D) 可 i 
能 是 译 码 器 的 一 部 分 ， 它 决定 寄存 器 的 依 
赖 关 系 ， 并 完成 对 AG 和 EX 部 件 的 调度 。 互 锁 保证 了 当前 指令 不 会 用 (依赖 ) 
一 个 前 面 指令 产生 的 不 可 用 的 结果 ， 直 到 这 个 结果 可 用 为 止 。 

执行 控制 器 对 后 续 的 指令 有 相同 的 作用 ， 确 保 在 执行 部 件 调度 完成 当前 指令 
前 ， 后 续 指令 不 会 进入 流水 线 ， 并 且 如 果 需 要 保持 执行 的 顺序 。 

互 锁 的 效果 ( 见 图 3. 10) 在 于 每 一 条 指令 一 旦 开始 译 码 ， 它 的 源 寄存 器 
(作为 操作 数 或 地 址 ) 必须 与 前 面 发 射 但 没有 完成 的 指令 的 目标 寄存 器 比较 


控制 信号 


调度 当前 指令 
调度 下 条 指令 
预测 分 支 结果 (静态 ) 








图 3.10 互 锁 
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(图 3. 10 所 示 的 C) 来 决定 依赖 关系 。 操 作 码 本 身 通 常 确 定 了 所 需 EX 的 周期 数 
(图 3.10 ras EX 框 )。 如 果 定 时 器 检测 的 超过 这 个 数目 ， 后续 的 指令 必须 延迟 保 
证 执行 次 序 。 

存储 互 锁 (E) 针对 存储 地 址 与 数据 互 锁 的 功能 相同 。 在 一 个 存储 指令 中 ， 
地 址 被 发 送 至 互 锁 部 件 ， 那 么 后 续 从 AG (数据 读 请 求 ) MIB (指令 读 请 求 ) 
的 读 请 求 可 以 用 于 与 挂 起 的 存储 操作 比较 并 检测 依赖 关系 。 


3.5.2 eB 


旁 路 或 前 递 是 一 种 数据 通路 ， 它 们 将 结果 (通常 来 自 于 ALU) 传送 给 一 个 
使 用 者 (可 能 仍然 是 ALU) ， 在 此 过 程 中 绕 过 结果 寄存 器 (后续 被 更 新 ) 。 这 种 
技术 可 以 让 ALU 产生 的 结果 在 更 早 的 流水 级 应 用 。 


3.5.3 执行 单元 


如 同 缓存 ， 执 行 单元 (特别 是 浮 点 单元 ) 在 性 能 和 面积 方面 显得 尤为 重要 。 
事实 上 ， 一 个 简单 的 浮 点 部 件 可 能 会 占据 与 一 个 基本 整数 处 理 器 核 (不 算 缓存 ) 
一 样 或 更 多 的 面积 。 在 简单 的 顺序 流水 线 中 ， 执 行 延 迟 〈 运 行 时 ) 是 决定 性 能 
的 重要 因素 ， 更 健壮 的 流水 线 会 在 整数 和 浮 点 操作 上 运用 相应 更 好 的 算数 算法 。 
表 3.7 给 出 了 一 些 典型 浮 点 部 件 的 面积 -时 间 权 衡 关 系 。 


表 3.7 a L a nE 


x a 流 水 线 | 部 件 面 积 /A 
ae i 








表 中 ， 字 长 指 的 是 操作 数 的 大 小 〈 指 数 和 位 数 ) ， 假 设 为 IEEE 754 标准 格 
式 。 执 行 的 时 间 为 估计 的 总 执行 周期 。 流 水 线 指 吞 吐 量 ， 即 该 实现 方式 每 周期 是 
否 支 持 执行 一 条 新 的 操作 。 最 后 一 列 是 实现 方式 的 部 件 估计 需要 的 面积 。 

最 小 的 实现 可 能 只 支持 专用 应 用 和 32 位 操作 数 ; 典型 的 实现 为 一 个 支持 64 
位 操作 数 的 简单 流水 线 的 浮 点 单元 ; 高 级 的 处 理 器 支持 扩展 IEEE 格式 (80 
位 ) ， 它 保证 了 中 间 计 算 的 准确 度 ; 多 发 射 实现 是 一 种 典型 的 无 旁 路 实现 ， 如 果 
实现 支持 超过 4 发 射 ， 那 么 其 大 小 很 可 能 翻 倍 。 


3.6 缓冲 : 让 流水 线 延 迟 最 小 化 


通过 去 除 事件 产生 和 输入 数据 被 应 用 的 时 间 之 间 的 耦合 性 ， 绥 冲 可 以 改变 指 
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令 时 序 事件 的 发 生 ， 这 使 得 处 理 器 在 不 影响 性 能 的 前 提 下 可 以 承受 一 定 的 延迟 。 
缓冲 保存 数据 等 待 其 进入 一 个 阶段 ， 通 过 这 种 方式 来 实现 延迟 容忍 

缓冲 可 以 利用 平均 请 求 率 或 最 大 请 求 率 "'…” 来 设计 。 对 于 前 者 ， 知 道 了 请 求 
的 预期 数目 ， 就 可 以 权衡 缓冲 的 大 小 与 发 生 溢出 可 能 性 的 关系 。 溢 出 不 会 在 
CPU 内 部 缓冲 中 出 现 , 但 是 当 缓 冲 已 满 且 又 来 了 一 个 新 请 求 时 ,会 产生 “ 游 
出 ”。 此 种 情况 会 迫使 处 理 器 降 速 来 等 待 直到 有 空闲 的 缓冲 项 。 这 样 每 当 溢 出 状 
况 发 生 ， 处 理 器 流水 线 会 停顿 以 使 游 出 的 缓冲 访问 内 存 (或 其 他 资源 ) 。 例 如 ， 
存储 缓存 ， 通 常 就 是 运用 平均 请 求 率 。 

最 大 请 求 率 被 用 于 请 求 控制 性 能 的 资源 ， 如 在 线 (in-line) 指令 请 求 或 视频 
缓冲 的 数据 入口。 在 这 种 情况 下 ， 缓 冲 的 大 小 要 足够 充足 来 匹配 缓存 或 其 他 存储 
设备 的 处 理 器 请 求 率 。 一 个 合理 大 小 的 缓冲 可 以 使 处 理 器 在 缓冲 没有 用 完 其 条 目 
的 情况 下 继续 以 最 大 请 求 率 访问 指令 或 数据 。 


3.6.1 平均 请 求 率 缓冲 


假设 g 是 一 个 随机 变量 ， 描 述 对 于 一 个 资源 的 请 求 大 小 〈 挂 起 的 请 求 数 
E); 0 是 它 的 平均 分 布 ; o 是 它 的 标准 差 。 

Litle 定理 : 平均 请 求 大 小 等 于 平均 请 求 率 〈 每 周期 的 请 求 次 数 ) 乘 以 处 理 
一 个 请 求 的 平均 时 间 "…”” 。 

假设 一 个 缓冲 的 大 小 是 BF， 并 且 定 义 缓冲 溢出 的 可 能 性 为 p。 根 据 马 尔 科 
夫 不 等 式 和 切 比 雪夫 不 等 式 ，P 有 两 个 上 界 。 

马尔 科 夫 不 等 式 


Prob{g 三 BF} <£ 


切 比 雪夫 不 等 式 


Prob | q=BF} oe 
(BF - Q) 
运用 两 个 不 等 式 ， 对 应 给 定 溢出 可 能 性 p， 可 以 保守 地 选择 BF， 两 个 不 等 
式 产生 了 两 个 上 界 ， 则 
‘ T 
BF = min (£, e+) 
例 3.1 假设 想 要 确定 一 个 两 项 的 写 缓冲 的 效力 。 假 设 写 请 求 率 为 每 周期 
0. 15， 完 成 一 个 存储 操作 的 期 望 周期 数 是 2， 应 用 Little 定理 ， 平 均 请 求 大 小 为 
0. 15 x2 =0.3。 (Rio? =0. 3 为 请 求 大 小 ， 可 以 计算 溢出 可 能 性 的 上 界 为 


p =max (&, | =0. 10 
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3.6.2 ”固定 或 最 大 请 求 率 的 缓冲 设计 


一 个 提供 固定 请 求 率 的 缓冲 在 概念 上 是 容易 设计 的 ， 主 要 的 考虑 在 于 屏蔽 访 
问 延迟 。 如 果 每 1 个 周期 处 理 一 项 而 需要 3 周期 去 访问 这 个 项 目 ， 那 么 需要 1 个 
至 少 三 项 的 缓冲 。 如 果 将 正在 处 理 的 项 目 考虑 进去 的 话 ， 则 至 少 需 要 4 项 。 

通常 而 言 ， 最 大 请 求 率 缓冲 为 了 处 理 提供 了 一 个 数据 或 指令 的 固定 率 。 这 样 
的 缓冲 有 很 多 ， 包 括 指令 缓冲 、 视 频 缓冲 、 图 形 和 多 媒体 缓冲 。 

一 般 情 况 下 ， 当 每 周期 处 理 ; 个 项 目 , p 个 项 目 用 固定 的 访问 时 间 (access 
time) 从 存储 设备 中 取出 时 ， 缓冲 大 小 BF 为 

BF =1+ [s access time( cycles) ] 
p 

初始 的 “1” 是 当前 周期 用 于 处 理 的 单 人 口 缓冲 的 修正 值 ， 在 某 些 情况 下 它 
可 能 并 不 需要 。 这 里 所 指 的 缓冲 是 为 了 缓冲 功能 部 件 或 译 码 器 入 口 而 设计 的 
( 即 指令 译 码 器 ) 。 它 与 帧 缓冲 和 图 像 缓 冲 这 种 在 处 理 器 和 媒体 设备 之 间 转 换 的 
缓冲 并 不 一 样 ， 然 而 这 里 所 述 的 缓冲 的 原则 也 同样 适用 于 那些 媒体 缓冲 。 


3.7 分 支 : 减少 分 支 的 开销 
分 支 是 优化 处 理 器 性 能 的 难题 之 一 。 分 支 可 以 显著 地 降低 性 能 ， 如 一 个 条 件 


分 支 指令 (BC) 需要 检测 前 一 条 指令 所 设置 的 条 件 码 ， 在 分 支 指令 译 码 和 条 件 
码 设置 之 间 可 能 相差 很 多 拍 ， 如 图 3. 11 所 示 。 最 简单 的 一 种 策略 是 处 理 器 不 做 


CC 被 设置 


D D' 

下 一 条 指令 [一 = 
| | 

经 过 调度 的 实际 情况 


图 3.11 由 分 支 指令 (BC) 产生 的 延迟 
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任何 操作 ， 简 单 地 等 待 条 件 码 设置 的 输出 结果 并 推迟 条 件 分 支 指令 后 面 指令 的 译 
码 ， 直 到 条 件 码 被 算出 。 当 分 支 指令 结 果 为 转移 时 ， 在 原 分 配给 算术 指令 取 数 的 
时 间 段 获取 分 支 目标 。 这 个 策略 简单 易于 实现 ， 并 且 使 由 分 支 指令 引起 的 额外 的 
内 存 数据 传输 最 小 化 。 尝 试 猜测 特定 路 径 的 策略 更 加 复杂 ， 并 会 可 能 出 现 错误 引 
发 额外 的 取 指 。 

如 图 3. 11 所 示 ， 实 际 的 译 码 可 能 是 5 拍 延 迟 〈 如 一 个 5 拍 分 支 惩罚 ) ， 而 这 
并 不 是 全 部 的 副作用 。 当 没有 跳 转 到 目标 路 径 时 ， 分 支 指令 后 的 第 2 条 指令 的 时 
序 也 会 因为 这 条 指令 没有 预 取 而 延误 额外 的 1 拍 。 

由 于 分 支 是 处 理 器 性 能 的 一 个 主要 限制 因素 '””” ， 有 很 多 研究 致力 于 减少 
分 支 的 负面 效果 。 有 两 种 简单 的 和 两 种 实质 性 的 处 理 分 支 问题 的 方法 。 两 种 简单 
的 方法 如 下 : 

1. 消去 分 支 。 对 于 确定 的 代码 序列 ， 可 以 将 分 支 蔡 换 成 其 他 的 操作 。 

2. 简单 的 分 支 加 速 。 这 种 方式 减少 了 目标 指令 的 取 值 和 条 件 码 决 策 所 需要 
的 时 间 。 

两 种 更 复杂 的 方法 是 这 两 种 简单 方法 的 一 般 化 : 

1. 分 支 目 标 获取 。 在 一 个 分 支 指 令 执行 之 后 ， 可 以 将 它 的 目标 指令 (和 它 
的 地 址 ) 存在 一 张 表 里 ， 为 在 之 后 的 运行 中 避免 分 支 延迟 。 如 果 可 以 预测 分 支 
的 路 径 的 结果 并 且 已 有 缓冲 中 的 目标 地 址 ， 那 么 分 支 指令 的 执行 将 不 会 产生 
延迟 。 

2. 分 支 预测 。 可 以 通过 分 支 指令 的 相关 可 用 信息 来 预测 分 支 的 结果 并 开始 
执行 预测 的 程序 路 径 。 如 果 这 个 策略 是 简单 或 是 细微 的 ， 总 是 取 跳 转 条件 分 支 的 
方向 ， 这 种 策略 被 称 为 固定 策略 ; 如果 这 个 策略 由 操作 码 的 类 型 或 目标 方向 决 
定 ， 则 这 种 策略 被 称 为 静态 策略 ;如 果 这 个 策略 由 当前 程序 行为 决定 ， 则 这 种 策 
略 被 称 为 动态 策略 〈 见 图 3. 12) 。 





总 是 猜测 不 命中 方向 除非 操作 码 基于 BC 的 基于 BC 和 人 它 的 
为 非 条 件 分 支 (OP=BR) 类 型 猜测 历史 猜测 


图 3. 12 分 支 预测 
分 支管 理 技术 见 表 3. 8 后 面 将 会 主要 关注 上 述 两 种 一 般 方 法 。 
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3.7.1 分 支 目 标 获 取 : 分 支 目标 缓冲 


， 分 支 目 标 缓冲 (Branch Target Buffer, BTB) 存储 了 前 面 执行 的 分 支 指令 的 
目标 指令 ， 如 图 3. 13 所 示 。 每 一 个 BIB 项 有 一 个 当前 指令 地 址 ( 仅 当 分 支出 现 
别名 情况 时 需要 ) 、 分 支 目 
标 地 址 和 最 近 目 标 指令 。 
因为 不 需要 等 待 地 址 产生 
的 完成 ， 目 标 地 址 可 以 使 
流水 线 中 的 目标 取 指 的 初 
始 化 更 快 。BTB 的 功能 : 
每 条 指令 在 BTB 索引 ， 如 
果 一 条 指令 地 址 与 BTB 中 
的 指令 地 址 匹配 ， 则 做 出 





一 个 预测 判断 这 个 地 址 的 指令 地 址 分 支 目标 地 址 。。 ”分 支 目标 
lok i cam 如 图 3. 13 分 支 目标 缓冲 [BTB 有 指令 位 索引 ， 
果 预 测 结果 为 跳 转 会 发 生 ， 特定 的 分 支 可 以 通过 引用 表 中 的 指令 地 址 域 
那么 目标 指令 会 作为 下 一 来 确定 (避免 别名 冲突 ) ] 


条 指令 ; 当 分 支 指 令 被 处 理 完 ， 在 执行 阶段 ， 如 果实 际 目标 与 存储 的 目标 不 同 ， 
BTB 可 以 更 新 正确 的 目标 信息 。 

BIB 的 效果 取决 于 它 的 命中 率 一 一 当 分 支 指令 被 读 取 时 它 能 在 BTB 中 被 查找 
到 的 可 能 性 。512 项 的 BTB 的 命中 率 在 70% ~98% 之 间 ， 这 取决 于 不 同 的 应 用 。 

BTB 可 以 与 指令 缓存 结合 使 用 。 假 如 有 一 个 图 3. 14 所 示 的 配置 ， 严 阶段 可 
以 用 到 BTB 和 指令 缓存 ， 如 果 IF 阶段 BTB 命中 ， 那 么 先前 存在 BTB 中 的 目标 指 
令 会 取出 并 且 在 常规 调度 时 间 送 至 处 理 器 ， 处 理 器 在 执行 目标 指令 时 将 不 会 产生 
分 支 延 迟 。 

ROMER 





3.14 典型 的 BTB 结构 (如 果 BTB“ 命 中 ”， 那么 BTB 向 处 理 器 返回 目标 
指令 ，CPU 猜测 目标 ; 如 果 BTB“ 不 命中 ”， 那 么 缓存 返回 分 支 
指令 和 顺序 路 径 ，CPU 猜测 顺序 路 径 ) 


82 计算 机 系统 设计 : 片上 系统 


BTB 提供 了 目标 指令 和 新 的 PC， 只 要 预测 正确 ,那么 分 支 指令 就 没有 延迟 。 
需要 注意 分 支 指令 本 身 仍然 需要 从 指令 缓存 中 读 取 并 被 完全 执行 。 如 果 AG 结果 和 
CC 的 结果 与 预期 不 一 致 ， 那 么 所 有 从 目标 路 径 取出 的 指令 都 必须 终止 。 很 明显 ， 
条 件 执行 (目标 路 径 ) 指令 都 不 能 进行 写 结果 操作 ， 这 样 如 果 预 测 失 败 可 以 恢复 。 


3.7.2 分支 预测 


除了 简单 的 固定 预测 ， 还 有 两 类 猜测 分 支 是 否 跳 转 的 策略 : 静态 策略 ， 基 于 
分 支 指令 的 类 型 ;动态 预测 ， 基 于 最 近 的 历史 和 分 支 活动 。 

即便 是 完美 的 预测 也 无 法 完全 取消 分 支 延 迟 。 完 美的 预测 仅仅 将 条 件 分 支 的 
延迟 转换 成 非 条 件 分 支 的 延迟 ， 所 以 在 运用 更 稳定 (和 昂贵 ) 的 预测 器 之 前 使 
用 BTB 支持 是 非常 重要 的 。 

静态 预测 

静态 预测 基于 特定 分 支 操作 码 或 分 支 目标 的 相关 方向 。 当 一 个 分 支 指令 译 码 
时 ， 针 对 分 支 的 结果 猜测 ， 如 果 决 定 分 支 跳 转 成 功 ， 那 么 流水 线 取 目 标 指令 流 并 
开始 从 此 译 码 。 一 个 静态 分 支 预测 策略 如 表 3. 9 所 示 。 


表 3.9 一 个 静态 分 支 预测 策略 
指令 预测 成 功 (S) 预测 失败 (U) 


| BR | 


a a ae 正 向 猪 测 U” 





“ 当 分 支 目标 小 于 当前 PC 时 ， 假 设 这 是 一 个 循环 ， 跳 转 到 目标 地 址 ， 否 则 预测 顺序 执行 。 


表 3.9 中 描述 的 策略 的 总 体 命中 率 的 总 体 准确 率 为 70% ~80% 。 

动态 预测 : 双 峰 形 

动态 策略 根据 历史 来 预测 ， 也 就 是 通过 一 个 分 支 指令 过 去 行为 的 序列 一 一 跳 
转 还 是 不 跳 转 一 一 来 决定 。 表 3. 10 中 ，Lee 和 Smith ”给 出 了 当 预 测 基于 前 面 
运行 分 支 指令 的 结果 时 的 效果 。 预 测 的 算法 非常 简单 ， 在 策略 实现 中 运用 一 个 小 
的 上 /下 饱和 计数 器 ， 如 果 分 支 跳 转 ， 这 个 计数 器 增加 且 有 一 个 最 大 值 *， 一 个 
不 跳 转 的 分 支 使 这 个 计数 器 减 小 。 对 于 一 个 2 位 的 计数 器 ,“00” 和 “01” 状 态 
下 预测 分 支 不 跳 转 ， 在 “10” 和 “11” 状 态 下 预测 分 支 跳 转 。 这 个 表 可 以 以 分 
离 或 综合 的 形式 存在 缓存 中 ， 如 图 3. 15 所 示 。 


表 3.10 n 位 计数 器 预测 准确 率 "*] 
i 
| 








分 支 在 这 一 行 的 结果 的 
历史 数目 


图 3.15 分 支 历史 计数 器 可 以 存在 指令 缓存 (上面 ) 或 在 分 开 的 表 中 


由 于 表 的 组 织 结构 ， 两 个 不 同 的 分 支 指令 可 能 对 应 相同 的 历史 ， 这 会 造成 别 
名 问题 。 

大 量 的 研究 表明 ( 见 表 3. 10) 。 第 一 ， 预 测 的 准确 率 随 着 位 数 的 增加 ， 增 加 
的 非常 缓慢 ; 第 二 ， 两 位 计数 器 的 准确 率 为 83. 4% ~ 96. 5% ， 较 表 3.9 中 一 位 
分 支 操作 码 的 准确 率 高 很 多 ; 第 三 ， 标 准 测试 集 (SPECmarks) 的 预测 准确 率 在 
运用 大 型 表 的 情况 下 为 93. 5% 。 

动态 预测 : 两 级 适应 

在 多 种 环境 中 双 峰 型 预测 的 预测 准确 率 被 限制 在 90% 左右 。Yeh Fil Patt 
运用 适应 型 分 支 预 测 将 预测 准确 率 提升 到 95% 。 基 本 的 方法 是 为 每 一 个 分 支 指令 
关联 一 个 移 位 寄存 器 ， 如 一 个 分 支 缓冲 表 。 这 个 移 位 寄存 器 记录 分 支 的 历史 ， 例 
如 ， 一 个 分 支 指令 两 次 跳 转 ， 两 次 不 跳 转 ， 那 么 移 位 寄存 器 记录 为 “1100”。 每 
一 种 移 位 寄存 器 的 状态 当做 地 址 索引 一 组 计数 器 ， 如 2 位 饱和 计数 器 。 每 当 移 位 
寄存 器 遇 到 “1100” 的 形式 ， 那 么 预测 结果 被 记录 到 相应 的 饱和 计数 器 中 。 如 
果 分 支 跳 转 ， 计 数 器 增加 ; 如 果 分 支 没 跳 转 ， 计 数 器 减 小 。 

适应 性 技术 可 能 需要 大 量 的 硬件 支持 ， 需 要 与 可 能 分 支 人 口 相关 的 历史 位 ， 
同时 还 有 存放 预测 结果 的 计数 器 表 。 大 型 程序 中 可 能 建立 稳定 的 历史 模式 ， 所 以 
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这 种 方法 在 大 型 程序 中 更 为 有 效 。 

Yeh 和 Patt 的 平均 测试 数据 显示 6 位 索引 的 适应 性 策略 的 预测 准确 率 可 以 达 
到 92% ，24 位 索引 的 可 以 达到 95% 。 值 得 注意 的 是 ，SPECmark 的 性 能 明显 高 
于 其 他 数据 。 

2 位 饱和 计数 器 在 所 有 程序 的 平均 预测 准确 率 可 达到 89.3% ， 然 而 图 3. 16 
的 数据 与 表 3. 10 中 的 数据 基于 不 同 程序 集 。 


100 
平均 预测 一 一 一 
SPECmarl 
98 上 TONER Goan 


分 支 预测 准确 率 (%) 











0 


历史 数据 
图 3. 16 两 级 适应 预测 器 的 分 支 预测 率 


适应 性 预测 在 各 种 程序 中 预测 准确 率 结果 在 本 书 参考 文献 [267] 中 给 出 。 
89% 和 95 %o 的 预测 准确 率 看 起 来 没有 那么 明显 ， 但 是 错误 的 分 支 预测 延迟 占据 
大 部 分 的 总 体 的 运行 延迟 。 

动态 预测 : 综合 方法 

双 峰 型 和 适应 型 方法 提供 了 关于 一 个 分 支 指令 路 径 可 能 性 不 同 的 信息 ， 因 此 
可 以 通过 增加 男 一 个 (2 位 饱和 ) 计数 器 的 (投票 ) 表 将 两 种 方法 结 合 。 当 分 
支 结果 不 同时 ， 投 票 表 在 两 种 方法 和 最 终结 果 中 选择 来 更 新 投票 表 的 计数 。 这 就 
是 综合 方法 ， 它 能 使 预测 准确 率 得 到 相应 提高 。 当 然 也 可 以 通过 结合 更 多 的 预测 
方法 来 构建 更 稳定 的 预测 器 。 

两 级 方式 的 缺点 在 于 控制 逻辑 和 两 个 序列 表 访 问 所 需要 的 硬件 开销 。 一 种 近 
似 的 方法 称 为 全 局 适应 预测 器 ， 它 对 于 所 有 分 支 指令 只 使 用 一 个 移 位 寄存 器 来 索 
引 一 个 单一 历史 表 ， 虽 然 它 比 两 级 方式 快 ， 但 预测 准确 率 只 与 双 峰 型 预测 器 相 
当 。 但 是 可 以 将 双 峰 型 预测 器 和 全 局 预测 器 结合 创建 一 种 近似 综合 方法 ， 这 种 方 
法 的 结果 可 以 与 两 级 适应 型 预测 器 的 效果 相当 。 

表 3. 11 给 出 了 一 些 典型 处 理 器 的 分 支 预测 策略 。 表 3. 12 中 给 出 了 一 些 SoC 
处 理 器 分 支 预测 策略 ， 它 们 的 策略 明显 比 工作 站 处 理 器 简单 。 
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表 3.11 一 些 典 型 处 理 器 的 分 支 预测 策略 


工作 站 处 理 器 目标 位 置 
IBM G5 BTB 
Intel Itanium 目标 在 带 有 分 支 的 指令 缓存 中 
SoC 处 理 器 目标 位 轩 
Intel XScale (ARM v5) BTB: 128 项 


33.12 — SoC 处 理 器 的 分 支 预测 策略 


Freescale e6000100 


MIPS 74K0183] 
Intel PXA27x[132] 
ARC 600019] 





3.8 更 健壮 的 处 理 器 : 矢量 、 超 长 指令 字 和 超标 量 体 系 
结构 


为 了 超越 每 条 指令 一 个 周期 ， 处 理 器 必须 能 够 同时 执行 多 条 指令 。 并 行 处 理 
器 必须 可 以 同时 访问 指令 和 数据 内 存 并 同时 执行 多 项 操作 。 能 实现 高 度 并 发 的 处 
理 器 称 为 并 行 处 理 器 ， 全 称 为 具备 指令 级 并 行 的 处 理 器 。 

目前 仅 关注 了 执行 单程 序 流 的 处 理 器 ， 它 们 仅 有 单一 的 指令 计数 器 所 以 是 单 
处 理 器 。 但 是 通过 指令 顺序 重 排 而 不 同 于 原来 的 程序 顺序 ， 并 发 指令 的 执行 就 可 
以 实现 了 。 

并 行 处 理 器 比 简单 流水 线 的 处 理 器 更 为 复杂 ， 对 于 这 些 处 理 器 ， 性 能 在 很 大 
程度 上 取决 于 编译 器 的 能 力 、 执 行 资源 和 内 存 系统 的 设计 。 并 行 处 理 器 依赖 编译 
器 检测 程序 中 的 指令 级 并 行 ， 编 译 器 必须 将 代码 重组 成 能 让 处 理 器 并 行 处 理 的 形 
式 ; 并 行 处 理 器 需要 额外 的 执行 资源 ， 如 加 法 器 、 乘 法 器 和 一 个 高 级 的 内 存 系统 
提供 以 期 望 速度 执行 程序 所 需要 的 操作 数 和 指令 带宽 。 


3.9 矢量 处 理 器 和 矢量 指令 扩展 


矢量 指令 可 通过 以 下 方式 提升 性 能 : 

1. 减少 执行 程序 所 需 的 指令 数 (减少 指令 带宽 ) 。 

2. 将 数据 组 织 成 有 规律 的 序列 ， 使 硬件 可 以 高 效 地 处 理 。 

3. 简化 循环 结构 ， 因 此 消除 循环 执行 的 控制 开销 。 

矢量 操作 需要 扩展 指令 集 ， 同 时 (为 了 更 好 的 性 能 ) 扩展 功能 部 件 、 寄 存 
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器 堆 特 别 是 系统 的 内 存 。 

矢量 通常 源 于 大 型 数据 数组 ， 
是 传统 数据 缓存 不 能 很 好 管理 的 一 
种 数据 结构 ， 访 问 数组 元 素 被 一 段 
地 址 距离 〈 称 为 步 幅 ) 分 开 ， 会 装 
填 一 段 时 间 局 部 性 很 小 的 数据 进入 
数据 缓存 。 这 样 在 这 段 数 据 被 蔡 换 
之 前 就 不 会 重复 使 用 ( 见 图 3. 17)。 

矢量 处 理 器 通常 包含 矢量 寄存 器 
(Vector Register，VR) 硬件 来 消去 内 
存 计 算 过 程 的 耦合 性 。VR 组 是 所 有 矢 
量 操作 数 的 源 和 目标 ， 在 许多 实现 中 ， 
访问 绕 过 缓存 ， 所 以 缓存 只 包含 标量 


SEAI 


3 








n 


图 3.17 对 于 内 存 中 的 不 同 数组 , 访问 内 存 时 
不 同 的 访问 方式 运用 不 同 的 步 幅 


数据 ， 标 量 数据 不 会 在 VR 中 使 用 ( 见 图 3. 18)。 





3.18 ”矢量 处 理 器 中 基本 存储 设备 (矢量 LD/ST 通常 绕 过 数据 缓存 ) 


3.9.1 矢量 功能 部 件 


VR 通常 由 8 个 或 者 更 多 寄存 器 组 组 成 ， 每 个 寄存 器 包含 16 ~ 64 个 矢量 元 


素 ， 而 每 一 个 矢量 元 素 是 一 个 浮 点 字 。 


VR 通过 特殊 的 加 载 和 存储 指令 访问 内 存 ， 矢 量 执行 部 件 通常 为 每 一 个 指令 
类 安排 成 独立 的 功能 部 件 ， 可 能 包括 以 下 几 种: 


© 加 法 /减法 ; 
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。 乘法 ; 

© 除法 或 倒数 操作 ; 

。 逻辑 运算 (BEER). 

由 于 矢量 的 目的 是 管理 一 组 操作 数 的 操作 ， 一 旦 矢量 操作 开始 ， 它 可 以 以 系 
统 频率 继续 执 形 。 图 3. 19 给 出 了 一 个 4 级 功能 流水 线 的 近似 时 序 。 一 个 矢量 加 
(VADD) 序列 穿 过 了 加 法 器 的 各 个 阶段 ， 在 四 个 加 法 阶段 之 后 第 一 个 元 素 的 
VR1 和 VR2 ( 标 为 VR1.1 和 VR2.1) 的 和 存 于 VR3 (实际 上 是 VR3.1) P, 


流水 线 预 搞 格 化 oop sy AAI 后 规格 化 ” 锯 环 





VR1.4 
R 送 至 VR3.4 
VR2.4 
A t, és A i é 1 te 
时 间 


图 3.19 一 个 4 级 功能 流水 线 的 近似 时 序 


功能 部 件 的 流水 线 对 矢量 功能 部 件 比 对 标量 功能 部 件 更 重要 。 延 迟 对 标量 功 
能 部 件 是 最 重要 的 。 

矢量 处 理 的 优势 在 于 需要 很 少 的 指令 来 执行 矢量 操作 。 一 个 单 (ER) R 
量 加 载 操 作 将 信息 存 人 VR。 矢 量 操作 以 系统 的 时 钟 频率 执行 〈 每 执行 一 个 操作 
需要 一 个 周期 )， 一 个 重合 的 存储 操作 与 后 续 指 令 的 操作 重合 进行 ( 见 图 3. 20) 。 


示例 : 
VADD V3, V2, VI 
VMPY V6, V4, V5 


wer $f Jo 


4 个 VR 读 端口 开始 乘 No 如 果 仅 有 两 个 
” 读 端口 则 延迟 
图 3.20 VADD 和 VMPY 示例 (对 于 逻辑 上 独立 的 矢量 指令 而 言 ，VR 组 的 访问 路 径 数目 
和 矢量 部 件 可 能 会 限制 性 能 。 如 果 有 四 个 读 端口 ，VMPY 可 以 在 第 二 个 周期 开始 ， 
否则 如 果 有 两 个 读 端口 ， 那 么 VMPY 必须 等 到 VADD 用 完 读 端口 后 才 开 始 ) 
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矢量 加 载 (Vector, Load, VLD) 必须 完成 后 才 可 以 被 使 用 〈 见 图 3.21)， 否 则 
处 理 器 不 得 不 识别 内 存 系统 中 操作 数 延 迟 的 时 刻 。 
tl VI, source(n) 


VADD V2, V3, V4 
VADD V5, V1, V6 


VLD — ae ie = 7 — | 
VADD 一 一 一 一 | a T K | 一 | 
VADD 矢量 功能 延迟 = 


图 3.21 VLD 和 VADD 示例 [虽然 独立 的 VLD 和 VADD 可 以 并 行 的 进行 (因为 有 充足 
的 VR 端口 ) ， 但 运用 VLD 结果 的 操作 直到 VLD 完成 才能 开始 ] 





处 理 器 并 行 执行 多 个 〈 独 立 的 ) 矢量 指令 的 能 力也 受到 VR 端口 和 矢量 执行 
单元 数目 的 限制 。 每 一 个 并 行 矢 量 加 载 和 存储 都 需要 一 个 VR 端口 ， 矢 量 ALU 
操作 需要 多 个 端口 。 

在 一 些 情 况 下 ， 每 周期 执行 多 于 一 条 矢量 计算 运算 操作 是 可 能 的 。 通 过 旁 
路 ， 一 个 矢量 计算 操作 的 结果 可 以 直接 用 于 后 续 矢量 操作 的 操作 数 而 不 用 先 通过 
VR。 图 3. 22 和 图 3. 23 所 示 的 这 种 操作 称 为 链接 。 如 图 3. 22 所 示 ，ADD-MPY 
链 每 个 功能 部 件 有 四 个 阶段 ， 如 果 ADD-MPY 没有 链接 ， 那 么 每 个 指令 需要 4( 启 
动 ) +64( 元 素 /VR) =68 个 周期 ， 也 就 是 需要 136 个 周期 。 在 有 链接 的 情况 下 ， 
周期 数 减少 到 4( 加 启动 ) +4( 乘 启动 ) +64( 元 素 /VR) =72 个 周期 。 

对 于 这 两 条 指令 
VADD VR3, VRI, VR2 


VMPY VRS, VR3, VR4 


时 序 : VRI3 VRI2 、 
4 i 送 至 VR3.1 


VR2.3 VR2.2 
VADD 


结果 同时 送 至 
MPY 和 VR5 


VMPY | | | 
VR3.1 


+ 
VR4.1 


图 3. 22 ”矢量 链 的 影响 


管理 内 存 访 问 是 挖掘 矢量 处 理 器 潜在 性 能 的 一 个 重要 部 分 。 由 于 算术 操作 每 
秒 完成 一 次 ， 运 算 代 码 重 复 地 访问 内 存 将 新 的 矢量 写 人 VR 并 将 结果 写 人 内 存 。 
一 般 来 说 ， 内 存 必须 具备 足够 的 带宽 来 支持 至 少 每 周期 两 字 的 频率 (一 个 读 一 
个 写 ) ， 甚 至 每 周期 3 字 (两 个 读 和 一 个 写 ) 。 这 样 的 带宽 允许 两 个 矢量 读 和 一 
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个 矢量 写 的 初始 化 和 运行 
并 行 执 行 ， 同 时 执行 一 个 
矢量 计算 操作 。 如 果 内 存 
到 VR 的 内 存 带宽 不 充 
足 ， 处 理 器 在 一 个 矢量 操 
作 完 成 后 需要 闲置 ， 直 到 
矢量 加 载 和 存储 完成 。 处 
理 器 设计 者 要 让 一 个 矢量 图 3.23 矢量 链 通 路 

处 理 扩展 适应 标量 设计 

( 见 表 3. 13) ， 特 别 是 内 存 系统 ， 要 适应 快速 矢量 执行 的 需求 ， 而 不 是 简单 地 将 
标量 处 理 扩展 移植 到 标量 处 理 器 设计 中 。 这 是 一 个 巨大 的 挑战 。 如 果 内 存 系统 的 
带宽 不 够 充足 ， 矢 量 处 理 硬件 所 带 来 的 性 能 提升 会 相应 减少 。 

表 3.13 ”内存 可 能 需求 (访问 /处 理 器 周期 数 ) 





指 3 数 据 
标量 部 件 Oo iee 1.0° 
矢量 部 件 0.0*® 2.0 ~3. 02 


“通用 的 ;可 通过 指令 缓冲 、 指 令 缓存 减少 。 
O 与 其 他 需求 相 比 相对 小 。 
@ 最 少 需要 一 个 矢量 加 载 (VLD) 和 一 个 矢量 存储 (VST) 并 行 ， 两 个 VLD 和 VST 并 行 更 合适 。 


图 3. 24 给 出 了 通用 矢量 处 理 器 的 主要 数据 通路 ， 展 示 了 矢量 处 理 器 的 主要 





图 3.24 通用 矢量 处 理 器 的 主要 数据 通路 
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元 素 。 功 能 部 件 (加 、 减 等 ) 和 两 个 寄存 器 组 (矢量 和 标量 或 者 通用 寄存 器 ) 
通过 一 个 或 更 多 的 总 线 连接 。 如 果 允 许 链接 ( 见 图 3.23)， 那么 3 个 (或 更 多 ) 
操作 数 访问 会 同时 从 VR 发 出 并 且 结 果 传 回 VR。 男 一 个 总 线 连 接 VR 和 内 存 组 
冲 。 系 统 的 其 他 部 分 指令 缓存 、 数 据 缓 存 、 通 用 寄存 器 等 与 常见 流水 线 处 理 器 中 
的 一 致 。 


3.10 超 长 指令 字 处 理 器 


多 发 射 处 理 器 有 两 种 广义 分 类 : 静态 调度 和 动态 调度 。 大 体 上 这 两 种 比较 类 
似 。 指 令 组 之 间 的 依赖 关系 将 被 评估 ， 不 存在 依赖 关系 的 组 将 同时 调度 到 多 个 执 
行 单元 。 对 于 静态 调度 处 理 器 ， 这 一 检测 过 程 由 编译 器 完成 ， 指 令 被 组 装 成 指令 
包 ， 在 运行 时 被 译 码 和 执行 。 对 于 动态 调度 的 处 理 器 ， 独 立 指 令 的 检测 同样 可 能 
在 编译 时 进行 ， 代 码 可 以 被 合理 地 编排 成 优化 的 执行 形式 ， 但 是 最 终 的 指令 选择 
(被 执行 或 发 送 ) 由 运行 时 译 码 器 的 硬件 完成 。 原 则 上 ， 动 态 调度 处 理 器 可 能 拥 
有 的 指令 表示 和 形态 上 与 较 慢 的 流水 线 处 理 器 没有 显著 差别 。 静 态 调度 的 处 理 器 
必须 有 一 些 额 外 的 信息 ， 明 确 或 隐 含 地 指示 指令 包 的 边界 。 

正如 本 书 第 1 章 提 到 的 ， 美 国 Multiflow 和 Cydrome 公司 的 处 理 器 定义 了 早期 
VLIW 机 器 。 这 些 机 器 所 用 的 指令 字 包 含 10 个 指令 段 ， 每 一 段 控制 一 个 指定 
的 执行 单元 ， 这 样 寄存 器 组 有 多 个 端口 来 支持 对 多 种 执行 部 件 的 同时 访问 。 为 了 
容纳 多 种 指令 段 ， 指 令 字 通 常 超过 200 位 〈 见 图 3. 25) 。 为 了 避免 分 支 给 性 能 带 
来 的 明显 限制 ， 一 种 新 的 称 为 跟踪 调度 的 技术 被 开发 出 来 。 通 过 这 种 跟踪 调度 技 
术 ， 分 支 的 动态 频率 被 大 大 降低 。 分 支 对 可 能 之 处 进行 预测 ， 当 达到 可 信 成 功率 
时 被 预测 的 路 径 成 为 一 个 更 大 基本 块 的 一 部 分 。 这 个 过 程 一 直 进行 ， 直 到 一 个 大 
小 合适 的 块 ( 没 有 分 支 的 代码 ) 可 以 被 有 效 调 度 。 如 果 在 执行 这 段 代码 时 出 现 
了 意料 之 外 的 (或 不 可 预测 的 ) 分 支 ， 在 基本 块 结束 时 ， 运 用 一 个 目标 基本 块 
修改 正确 的 结果 。 


操作 1 操作 2 
a —_—_— "= SN 
图 3.25 部 分 VLIW 格式 (每 一 段 并 行 地 访问 一 个 单一 集中 的 寄存 器 组 ) 


最 近 多 发 射 处 理 器 的 研究 方向 倾向 于 更 少 的 并 行程 度 ， 然 而 同时 多 线程 
(Simultaneous Multithreading, SMT) 的 使 用 呈 上 升 趋势 。 在 SMT 结构 中 ， 多 个 程 
Fr (线程 ) 共用 处 理 器 执行 硬件 〈 加 法 器 、 译 码 器 等 ) ， 但 拥有 自己 的 寄存 器 
组 、 指 令 计数 器 和 指令 寄存 器 。 同 一 芯片 上 的 两 个 2 路 SMT 处 理 器 ( 核 ) 可 以 
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支持 4 个 程序 同时 运行 。 

图 3. 26 所 示 为 一 个 通用 VLIW 处 理 器 的 主要 数据 通路 。 寄 存 器 端口 的 广泛 
运用 为 VLIW 处 理 器 提供 了 所 需 的 同时 访问 数据 的 能 力 ， 这 意味 着 寄存 器 组 可 能 
是 处 理 器 的 瓶颈 。 





功能 部 件 


图 3. 26 一 个 通用 VLIW 处 理 器 的 主要 数据 通路 


3.11 起 标量 处 理 器 


超标 量 处 理 器 也 可 以 通过 图 3.26 所 示 的 数据 通路 方式 实现 。 通 常 这 种 处 理 
器 运用 多 总 线 与 寄存 器 组 和 功能 部 件 连接 ， 并 且 每 一 个 总 线 服务 于 多 个 功能 部 
件 ， 这 可 能 会 限制 最 大 并 行 度 但 可 能 减少 需要 的 寄存 器 端口 数 。 

不 论 检 测 过 程 是 静态 的 还 是 动态 的 ， 指 令 内 和 指令 间 的 相关 性 检测 的 问题 在 
理论 上 是 一 样 的 (虽然 在 实际 影响 上 不 同 ) 。 下 面 将 回顾 指令 独立 性 的 理论 。 在 
超标 量 处 理 中 ， 独 立 性 检测 必须 在 硬件 执行 ， 这 必然 使 控制 硬件 和 实现 处 理 器 的 
选择 更 加 复杂 化 。 本 书 还 将 讨论 相对 于 其 他 方法 更 为 具体 和 复杂 的 方法 。 


3.11.1 数据 相关 
在 乱 序 执行 中 ， 两 条 指令 1, 和 1，(i 的 执行 顺序 先 于 j) 相关 可 能 有 三 种 。 首 
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先是 所 谓 的 写 后 读 (Read After Write, RAW) 相关 或 真相 关 ， 当 1; 的 目标 和 了 的 
源 相 同时 出 现 ， 即 
D, =5, 或 
D, =$; 
这 是 一 个 数据 或 地 址 的 相关 。 
另 一 种 情况 是 当 指令 的 目标 与 前 一 条 指令 的 源 相 同时 发 生 的 相关 ， 当 以 下 情 
况 时 发 生 : 
D;=51; 或 
D; = S; 
当 指令 序列 中 的 一 条 指令 被 延迟 ， 后 续 的 指令 被 允许 超前 执行 而 改变 了 前 
面 指 令 源 寄 存 器 的 内 容 ， 这 时 发 生 上 述 相 关 ， 如 下 面 的 例子 所 示 (R3 是 目标 寄 
存 器 ) : 


I DIV R3, Rl, R2 
L ADD R5, R3, R4 
L ADD R3, R6, R7 


其 中 ， 第 二 条 指令 被 第 一 条 指令 的 除法 操作 延迟 ; 如 果 人 允许 第 三 条 指令 在 它 
的 操作 数 可 用 时 立即 执行 ,那么 可 能 改变 第 二 条 指令 计算 用 的 寄存 器 (R3 ) 。 这 
种 相关 称 为 读 后 写 ( Write After Read, WAR) 相关 或 顺序 相关 ， 因 为 仅 在 允许 
乱 序 执行 时 才 会 发 生 。 

最 后 一 种 情况 为 指令 1 的 目标 和 指令 7 的 目标 相同 ， 即 


D, =D, 

在 这 种 情况 下 ， 指 令 四 可 能 在 指令 7 之 后 完成 ， 这 时 寄存 器 中 的 结果 是 由 指令 天 
产生 的 而 不 是 由 7 产生 的 。 这 种 相关 称 为 写 后 写 独立 于 后 续 指令 
(Write After Write, WAW) 相关 或 输出 相关 ， 在 某 a 

种 程度 上 它 是 值得 讨论 的 。 如 果 指 令 I, 产生 的 结果 l; OP Di, Su, Sas 
在 指令 7 产生 新 的 同 目的 的 结果 之 前 没有 被 后 面 的 ”指令 窗口 

指令 用 到 ， 那 么 图 3. 27 所 示 的 第 一 个 指令 了 是 不 需 I OP D}, Sy, Sy 
要 的 。 这 种 类 型 的 相关 通常 可 以 由 编译 器 优化 消 


除 ， 在 这 里 不 予 讨 论 。 下 面 举 两 个 例子 。 图 3.27 检测 指令 间 得 独立 性 
例 1 

DIV R3, R1, R2 

ADD R3, R4, 
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例 2 
DIV R3, RI, R2 
ADD R5, R3, R4 
ADD R3, R6, R7 


例 1 是 元 余 指 令 (DIV) 的 情况 ;而 例 2 含有 输出 相关 ， 但 也 有 真相 关 ， 一 
且 真 相关 解决 ， 输 出 相关 也 随 之 解决 。 代 码 中 相关 出 现 得 越 少 ， 代 码 的 并 行 性 就 
越 强 ， 整 个 程序 的 执行 也 就 越 快 。 


3.11.2 检测 指令 并 行 


指令 并 行 的 检测 可 以 在 编译 时 、 运 行 时 或 两 者 同时 进行 ， 很 明显 同时 运用 编 
译 器 和 运行 时 硬件 来 支持 并 行 指令 运行 能 达到 最 好 的 效果 。 编 译 器 可 以 进行 循环 
展开 并 创建 更 大 的 基本 块 大 小 来 减少 分 支 。 然 而 ， 完 全 的 机 器 状态 只 有 在 运行 时 
才能 得 到 。 例 如 一 个 由 除 、 取 数 和 除 (divide, load, divide) 组 成 的 指令 串 ， 如 
果 中 间 的 加 载 指令 产生 了 缓存 失效 ， 那 么 这 个 序列 产生 的 明显 的 资源 相关 可 能 并 
不 存在 。 


表 3.14 一 些 SoC 处 理 器 的 重 命名 特性 


重 命名 缓冲 大 小 


TE: CPR， 通 用 寄存 器 ; FPR， 浮 点 寄存 器 ; VR， 矢 量 寄存 器 ; CB， 完 成 缓冲 。 


指令 在 译 码 时 检查 相关 性 ， 如 果 发 现 一 个 指令 与 其 他 前 面 的 指令 没有 相关 而 

且 此 时 有 可 用 的 资源 ， 那 么 这 条 指令 将 发 射 到 ae 

功能 部 件 。 所 有 指令 检查 的 数目 决定 指令 窗口 “六 一 ----- 

的 大 小 〈 见 图 3. 28) ， 假 设 指令 窗口 有 N 条 指 | 

令 并 在 任意 给 定 周期 有 M 条 指令 被 发 射 ; 在 | rr 

下 一 个 周期 后 续 的 M 条 指令 进入 缓冲 ， 又 

有 WN 条 指令 被 检查 ， 在 一 个 周期 内 可 能 有 M 

条 指令 被 发 射 。 | 
顺序 和 输出 相关 可 以 用 充足 的 寄存 器 来 消 

除 。 当 其 中 一 种 相关 被 检测 时 ， 重 命名 相关 寄 

存 器 到 另 一 个 对 指令 集 不 可 见 的 寄存 器 是 可 能 | iat em 

的 。 这 种 重 命名 类 型 需要 寄存 器 组 扩展 ， 包 含 

重 命名 寄存 器 。 一 个 常见 的 处 理 器 可 能 由 指令 图 3.28 指令 窗口 














Freescale e600 






MIPS 74K 
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集 指定 的 32 个 寄存 器 组 扩展 为 包含 重 命名 寄存 器 的 共 45 ~ 60 个 寄存 器 的 寄存 器 
组 (一些 SoC 处 理 器 的 重 命名 特性 见 表 3. 14) 。 

图 3. 29 给 出 了 一 个 MM 级 流水 的 处 理 器 ， 它 是 检查 条 指令 并 发 射 MW 条 指令 
的 整体 布局 。 






每 周期 M 条 指令 







每 周期 2M 个 
操作 数 









每 周期 M 条 指令 





一 -一 二 一 一 


每 周期 M 条 指令 





图 3.29 一 个 MM 级 流水 处 理 器 


在 指令 窗口 里 的 入 条 指令 都 是 发 射 的 候选 ， 发 射 与 否 取 决 于 指令 是 否 独 立 
和 执行 资源 是 否 可 用 。 

如 果 处 理 器 只 支持 两 条 L/S 指令 、 一 条 浮 点 指令 和 一 条 定点 指令 。 那 么 指 
令 窗 口 的 译 码 器 必须 选择 这 种 L/S 类 型 的 指令 发 射 。 所 以 ， 即 便 三 条 L/S 指令 
都 是 独立 的 也 不 能 发 射 。 

调度 是 将 指定 的 资源 在 指定 的 时 间 分 配给 特定 指令 和 它 的 操作 数 的 过 程 ， 调 
度 可 以 由 功能 部 件 本 身 在 执行 时 通过 集中 或 分 散 的 方式 来 完成 。 前 一 种 方式 称 为 
控制 流 调度 ， 后 一 种 方式 成 为 数据 流 调度 。 在 控制 流 调度 中 ， 在 译 码 阶段 解决 相 
关 ， 指 令 被 保留 (不 发 射 ) 直到 相关 被 解决 。 在 数据 流 调度 系统 中 ， 当 指令 被 
译 码 后 离开 译 码 阶段 ， 在 操作 数 和 功能 部 件 可 用 之 前 保留 在 缓冲 中 。 

早期 的 机 器 通过 控制 流 或 数据 流 来 确保 指令 乱 序 执行 的 正确 性 。CDC66005238] 
运用 了 控制 流 方法 ，IBM360 Model 91°) 是 第 一 个 用 数据 流 调度 的 系统 。 


3.11.3 一 个 简单 的 实现 
本 节 观 察 一 个 简单 的 调度 实现 。 虽 然 它 的 设置 值 V=1、M =1， 但 它 人 允许 乱 
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序 执行 并 说 明了 管理 相关 的 基本 策略 。 

考虑 一 个 带 有 多 种 功能 部 件 的 系统 ， 它 的 每 一 次 执行 可 能 需要 多 个 周期 ， 运 
用 L/S 结构 ， 假 设 有 一 个 集中 的 单一 寄存 器 组 为 功能 部 件 提供 操作 数 。 

假设 最 多 NN 条 指令 已 经 被 派 遗 执行 ， 必 须 决 定 译 码 器 当前 如 何 发 射 一 条 指 
令 。 在 还 剩 N -1 条 未 发 射 指令 的 情况 下 发 射 一 条 单一 的 指令 与 在 还 剩 N 条 指令 
的 情况 下 发 射 是 一 样 的 。 

运用 一 种 有 时 被 称 为 数据 流 方法 或 功能 部 件 
标签 前 递 的 方法 ， 这 种 方法 由 Tomosu- 
lo 提出， 并 用 他 的 名 字 命 名 。 os 


| 

寄存 器 组 的 每 一 个 寄存 器 都 被 扩展 ， 
包含 一 个 标签 ， 它 指示 产生 结果 放 入 指定 M por [ > fs | & | 
| oF | 





寄存 器 的 功能 部 件 。 同 样 的 ， 每 一 个 功能 
部 件 有 一 个 或 者 多 个 保留 站 (JL 3.30). 
保留 站 包含 一 个 其 他 功能 部 件 或 者 图 3.30 保留 站 与 功能 部 件 相 连 (包括 指令 
寄存 器 的 标签 ， 或 者 它 可 以 包含 需要 的 ”操作 码 和 数据 值 或 一 个 挂 起 状态 等 待 进入 
值 。 一 个 特定 指令 的 操作 数 的 值 不 需要 功能 部 件 相关 的 数据 值 ; 它们 起 到 了 
对 要 发 射 至 保留 站 的 指令 有 效 ， 一 个 值 重 命名 寄存 器 的 作用 ) 
可 能 被 一 个 特定 寄存 器 的 标签 蔡 代 ， 直 到 这 个 值 可 用 ， 保 留 站 会 一 直 等 待 。 由 于 
保留 站 保存 了 当前 可 用 数据 的 值 ， 它 起 到 了 重 命名 寄存 器 的 作用 ， 因 此 这 个 方案 
避免 了 顺序 和 输出 相关 。 
控制 分 散在 功能 部 件 中 ， 每 一 个 保留 站 有 效 指定 了 自己 的 功能 部 件 ， 一 个 浮 
点 乘法 器 的 两 个 保留 站 是 不 同 的 功能 部 件 标签 : 乘法 器 1 和 乘法 器 2 ( 见 图 3.31)。 
如 果 操 作 数 可 以 直接 进入 乘法 器 ， 那 么 会 有 另 一 个 标签 : 乘法 器 3。 一 旦 一 对 操 


DIV 














o [a] mm 


o [a] mm 


图 3.31 数据 流 。 每 一 个 保留 站 由 保存 S 和 $ 的 值 〈( 如 果 可 用 ) 
的 寄存 器 或 指示 值 从 哪里 产生 的 标签 组 成 ) 
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作 数 有 一 个 指定 的 功能 部 件 标 签 ， 这 个 标签 会 一 直 伴随 这 个 操作 数 对 指导 操作 完 
成 。 任 何 取决 于 这 个 结果 的 部 件 (或 寄存 器 ) 都 要 进行 一 个 功能 部 件 标签 的 复 
制 ， 并 且 从 总 线 上 的 广播 得 到 结果 。 

对 于 前 面 的 例子 ， 有 


DIV. F R3, R1, R2 
MPY. F R5, R3, R4 
ADD. F R4, R6, R7 


初始 时 DIV. F 指令 同 R1 和 R2 的 值 发 射 到 除法 部 件 〈 假 设 它 们 是 可 用 的 ， 
从 共用 的 总 线 中 取 到 ) 。 一 个 出 发 部 件 标签 被 发 射 到 R3 ， 表 示 此 刻 它 没有 可 用 的 
值 。 在 下 一 个 周期 ，MPY. 了 与 R4 的 值 和 一 个 R3 的 [DIV] 标签 被 发 射 到 乘法 部 
件 。 当 除法 部 件 完成 时 ， 它 将 自己 的 结果 广播 ， 因 为 它 持 有 “出 发 部 件 ” 的 标 
签 ， 所 以 结果 通知 乘法 部 件 的 保留 站 。 同 时 ， 加 法 部 件 同 RE 、R7 中 的 值 发 射 并 
开始 加 法 ，R4 从 加 法 器 处 得 到 标签 ， 由 于 乘法 器 已 经 拥有 R4 的 旧 值 ， 所 以 没有 
顺序 相关 发 生 。 

在 数据 流 方法 中 ， 目 标 指向 的 寄存 器 的 结果 可 能 从 来 不 实际 到 达 这 个 寄存 
器 。 事 实 上 ， 基 于 一 个 特定 寄存 器 加 载 的 计算 可 能 会 继续 被 传递 给 各 种 功能 部 
件 ， 所 以 在 值 保存 前 ， 一 个 基于 新 计算 序列 〈 一 个 新 的 加 载 指令 ) 的 新 值 可 以 
运用 这 个 目标 寄存 器 。 这 种 方法 在 一 定 程度 上 避免 了 中 央 寄 存 器 组 的 应 用 ， 因 此 
避免 了 寄存 器 顺序 和 输出 相关 。 

对 于 顺序 和 输出 相关 是 否 是 一 个 严重 的 问题 存在 一 些 争论 ”' 。 当 寄存 器 组 
更 大 时 ， 一 种 优化 编译 器 可 以 分 配 利用 这 些 寄存 器 组 ， 避 免 寄 存 器 -资源 相关 的 
出 现 。 当 然 所 有 的 方案 都 没有 解决 真相 关 (第 一 种 类 型 ) ， 然 而 大 型 寄存 器 组 有 
它 自 身 的 缺陷 ,特别 是 由 于 中 断 引 起 的 保存 和 还 原 时 的 通路 问题 。 


研究 3.1 时 序 样 例 
对 于 代码 序列 
I DIV. F R3, R1, R2 
L MPY. F R5, R3, R4 
I, ADD. F R4, R6, R7 


第 3 章 处 理 器 97 








之 后 显示 数据 流 的 时 序 。 
对 于 这 种 方法 ， 可 以 得 到 以 下 分 析 结 果 : 
译 码 器 发 射 ) 一 除法 部 件 
he R1 除法 保留 站 
ilies R2 BR BEAR RLS 
TAG_DIV—R3 
开始 DIV. F 指令 
译 码 器 发 射 /一 乘法 部 件 
第 2 个 周期 TAG_DIV 一 乘法 部 件 
R4_, 乘 法 保留 站 
TAG_MPY 一 R5 
乘法 器 等 竺 
译 码 器 发 射 一 加 法 部 件 
第 3 个 周期 R6 一 加 法 保留 站 
R7_ 加 法 保留 站 
TAG_ ADD 一 R4 
第 4 个 周期 开始 ADD. FS 
加 法 部 件 请 求 下 个 周期 广播 (授权 ) 
个 A, 
STENI 加 法 部 件 本 周期 完成 
第 7 个 周期 加 法 部 件 结果 一 R4 
除法 部 件 请 求 下 个 周期 广播 (授权 ) 
个 A, 
dici 除法 部 件 本 周期 完成 
除法 部 件 _,R3 
个 A, 
第 10 个 周期 除法 部 件 _, 乘 法 部 件 
第 11 个 周期 开始 MPY. 下 指令 
第 14 个 周期 乘法 完成 并 请 求 数据 广播 (授权 ) 
第 15 个 周期 乘法 部 件 结果 _,R5 


就 目前 的 实现 而 言 ， 发 射 逻 辑 被 分 散 到 保留 站 中 ， 当 同一 周期 多 个 指令 将 要 
被 发 射 时 ， 必 须 有 多 个 分 开 的 总 线 来 传递 信息 : 操作 、 标 签 / 值 1、 标 签 / 值 2 和 
目标 。 假 设 保留 站 与 功能 部 件 相 连 ， 如 果 为 了 实现 方便 集中 保留 站 ， 那 么 设计 将 
会 与 一 个 改进 的 控制 流 或 计 分 板 技术 相似 。 

动作 总 结 

可 以 总 结 出 以 下 基本 规则 : 

1. 如 果 数 据 值 可 用 ， 译 码 器 发 射 指令 和 数据 值 到 保留 站 ， 和 否则 发 送 指令 和 
寄存 器 标签 。 

2. 目的 寄存 器 (指令 指定 ) 获得 功能 部 件 标签 。 

3. 持续 发 射 指令 直到 一 种 保留 站 满 为 止 ， 未 被 发 射 的 指令 保持 挂 起 状态 。 
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4. 任何 与 未 发 射 指令 或 挂 起 指令 相关 的 指令 必须 保持 挂 起 状态 。 
3.11.4 乱 序 指令 的 状态 保存 


乱 序 执行 会 导致 机 器 状态 明显 的 混乱 ， 即 使 代码 被 正确 地 运行 。 如 果 发 生 了 
中 断 或 者 某 种 异常 (甚至 可 能 是 一 次 错误 的 分 支 预 测 ) ， 判 断 异 常 的 准确 来 源 并 
明晰 怎样 为 后 续 指 令 的 处 理 保存 和 恢复 机 器 状态 会 变 得 非常 模糊 不 清 。 有 以 下 两 
个 基本 方法 可 以 解决 这 一 问题 : 

1. 限制 编程 模型 。 这 一 方法 只 适用 于 中 断 并 且 会 包含 一 个 叫做 非 准 确 中 断 
的 设备 ， 非 准确 中 断 仅 说 明 一 个 例外 在 代码 中 的 某 个 区 域 发 生 ， 而 不 进行 更 深 的 
隔离 。 这 种 简单 的 方法 可 能 适用 于 仅 使 用 真实 (没有 虚拟 ) AK aS KA 
式 设备 ， 通 常 不 适用 于 虚拟 内 存 处 理 器 。 

如 果 一 个 加 载 指令 访问 到 一 个 当前 内 存 没 有 的 页 而 后 续 的 指令 已 经 在 执行 
时 ， 那 将 产生 灾难 性 的 后 果 。 当 缺失 的 页 面 被 加 载 后 控制 交还 给 进程 ， 这 一 加 载 
过 程 可 能 与 它 相关 的 指令 同时 进行 ， 但 其 他 在 这 一 加 载 指令 前 执行 的 指令 不 应 被 
重复 执行 ， 所 有 的 控制 可 能 被 搞 乱 。 唯 一 的 选择 是 在 进程 运行 之 前 将 这 一 进程 需 
要 的 页 面 全 部 加 载 到 内 存 中 。 对 于 实际 可 行 的 编程 环境 ， 如 大 型 科学 应 用 ， 这 种 
方法 是 一 种 解决 方案 。 

2. 创建 一 个 写 回 阶段 ， 保 护 寄 存 器 组 使 用 的 顺序 性 ， 或 者 至 少 允 许 这 样 一 
个 有 序 寄 存 器 组 的 重 构 。 

为 了 提供 一 个 程序 执行 的 顺序 模型 ， 必 须 有 一 些 能 够 合理 管理 寄存 器 文件 状 
态 的 机 制 ， 成 功 的 关键 ”是 有 效 


指令 有 序 执行 ,那么 结果 存在 寄存 ”结果 寄存 器 文件 
器 文件 中 ( 见 图 3.32)， 较 早 完成 的 
指令 需要 保持 挂 起 状态 等 待 在 它 之 图 3.32 简单 寄存 器 文件 的 组 织 形式 
前 发 射 而 未 完成 的 指令 ， 这 样 会 牺牲 性 能 。 

另 一 种 方法 运用 了 重 排序 缓冲 〈 见 图 3. 33) ， 结 果 乱 序 到 达 重 排序 缓冲 ， 但 
是 以 程序 顺序 写 回 有 序 寄 存 器 文件 ， 这 样 一 来 保护 了 寄存 器 文件 的 状态 。 为 了 避 
免 重 排序 缓冲 的 冲突 ， 可 以 如 图 3. 34 所 示 的 那样 将 缓冲 分 布 到 各 个 功能 部 件 上 。 
这 些 技术 人 允许 指令 的 乱 序 执行 但 是 保护 了 寄存 器 组 的 有 序 写 回 。 


重 排序 缓冲 人 


图 3.33 集中 的 重 排序 缓冲 方法 








操作 数 


结果 











操作 数 
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结果 功能 部 件 1 一 一 一 | 重 排序 缓冲 1 
结果 功能 部 件 2 一 一 一 | 重 排序 缓冲 2 

寄存 器 文件 
结果 功能 部 件 n ——— | 重 排序 缓冲 


图 3.34 分 散 的 重 排序 缓冲 方法 


3.12 处理 器 的 演变 和 两 个 实例 


下 面 来 看 看 处 理 器 的 早期 概念 ， 然 后 看 看 最 新 的 高 性 能 处 理 器 的 实例 。 


3.12.1 软 核 和 固 核 处 理 器 设计 : P 形式 的 处 理 器 


应 用 于 SoC 和 其 他 特定 应 用 领域 的 处 理 器 ,需要 比 通用 处 理 器 概念 考虑 更 
Z. 设计 者 仍然 需要 运用 给 定 晶 体 管 数 目 实 现 尽 可 能 高 的 性 能 。 目 标 是 实现 易于 
适用 多 种 情况 的 高 效 的 模块 化 设计 ， 好 的 设计 具备 以 下 几 点 : 

1. 一 个 有 效 运用 数据 指令 内 存 (代码 密度 ) 和 数据 内 存 (一 些 操作 数 大 
小 ) 的 指令 集 。 

2. 一 个 对 于 广泛 的 应 用 保持 性 能 的 有 效 微 体系 结构 。 

3. 一 个 相对 简单 、 节 约 晶体 管 的 结构 。 

4. 一 定数 目的 协 处 理 器 扩展 ， 易 于 添加 到 基本 处 理 器 中 ， 可 以 包含 浮 点 和 
矢量 协 处 理 器 。 

5. 对 于 所 有 处 理 器 配置 完全 的 软件 支持 ， 包 括 编译 器 和 调试 器 。 

ARM1020 处 理 器 是 这 类 处 理 器 设计 中 的 经 典 。 为 了 改进 代码 密度 ， 它 运用 
了 支持 16 位 和 32 位 指令 的 指令 集 ， 图 3. 35 给 出 了 ARM1020T 处 理 器 的 数据 通 
路 。 调 试 和 系统 控制 协 处 理 器 和 /或 矢量 和 浮 点 协 处 理 器 可 以 直接 添加 来 改进 性 
能 。ARM 总 线 也 是 一 种 SoC 应 用 的 标准 。 

其 指令 时 序 是 简单 的 六 级 流水 ， 如 图 3. 36 所 示 。 由 于 结构 简单 ， 它 的 峰值 
性 能 可 以 达到 每 周期 一 条 指令 (忽略 缓存 失效 ) 。 
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数据 MMU/TLB 





图 3.35 ARM1020T 处 理 器 的 数据 通路 5 


整数 流水 线 
EX/ | EX/ 
四 四 回国 四 加 


图 3.36 ARM1020T 处 理 器 指令 时 序 


3.12.2 高 性 能 定制 处 理 器 


当 设计 高 性 能 工作 站 时 ， 相 对 于 性 能 ， 设 计 工 作 是 次 要 的 (但 进入 市 场 的 
时 间 更 为 重要 ) 。 这 导致 大 型 设计 团队 聚焦 定制 电路 、 时 钟 、 算 法 和 微 结构 ， 以 
此 按 计划 达到 性 能 要 求 。Freescale e600 处 理 器 就 是 一 个 例子 ( 见 图 3.37)。 这 
样 的 处 理 器 运用 了 本 章 所 述 的 所 有 设计 技术 ， 除 此 之 外 还 有 以 下 几 种 : 

1. 由 于 有 大 量 可 用 面积 (晶体 管 ) ， 可 以 实现 更 多 的 分 支 表 、 多 个 执行 部 
件 、 多 发 射 和 完全 的 指令 乱 序 执行 。 

2. 时 钟 频率 更 高 、 周 期 时 间 缩 短 、 一 些 基 本 的 操作 (如 指令 读 取 ) 占用 多 
于 一 拍 的 时 间 ， 总 之 由 于 周期 缩短 ， 流 水 线 变 得 更 加 复杂 ， 时 序 图 会 明显 变 得 更 
K 〈 更 多 步 又) 。 

3. 因为 容量 大 的 缓存 需要 更 长 的 访问 时 间 ， 需 要 实现 一 层 或 多 层 的 更 大 容 
量 的 缓存 来 支持 小 容量 的 一 级 缓存 。 
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矢量 功能 部 件 


16VR 重 命名 缓冲 16GPR 重 命名 
缓冲 





图 3.37 Freescale e600 处 理 器 的 数据 通路 0200 
3. 13 总 结 


流水 线 处 理 器 已 经 成 为 从 大 型 机 到 微 处 理 器 几乎 所 有 机 器 实现 的 选择 。 高 密 
E VLSI 逻辑 技术 ， 加 上 高 密度 内 存 让 日 趋 复杂 的 处 理 器 实现 变 成 可 能 。 

在 模拟 流水 线 处 理 器 的 性 能 时 ， 为 每 条 指令 分 配 一 个 基本 时 间 然 后 增加 由 代 
码 运 行 产 生 的 相关 引发 的 延迟 ， 这 些 相关 通常 由 分 支 、 数 据 依 赖 或 有 限 的 执行 
资源 引发 。 对 于 每 种 类 型 的 相关 都 有 相应 的 实现 策略 缓解 相关 的 影响 。 例 如 ， 
实现 分 支 预测 策略 ， 减 缓 了 分 支 延 迟 的 作用 。 然 而 ， 相 关 的 检测 由 互 锁 来 实 
现 ， 互 锁 逻 辑 包 括 译 码 器 检测 相关 并 确保 机 器 按照 代码 执行 顺序 合理 地 进行 逻 
HRE. 


3.14 JA 


1. 仿照 研究 3. 1， 列 出 下 面 三 条 指令 序列 的 时 序 : 
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ADD. F R1, R2, R3 
SUB. F R3, R4, R5 
MPY. F R3, R1, R7 


2. 在 互联 网 上 查找 3 种 最 新 的 处 理 器 产品 并 列 出 它们 的 相关 参数 。 

3. 假设 一 个 矢量 处 理 器 在 运行 矢量 代码 时 达到 了 2.5 的 加 速 比 ， 在 一 个 可 
矢量 化 代码 率 为 50% 的 应 用 中 ,在 一 个 非 矢 量 的 机 器 上 的 整体 加 速 比 是 多 少 ? 
对 比 一 个 每 周期 能 最 大 运行 4 条 算数 操作 的 VLIW 的 期 望 加 速 比 (VLIW 和 矢量 
处 理 器 的 时 钟 周期 一 致 ) 。 

4. 某 一 存储 缓冲 有 4 项， 平均 使 用 2 项。 

(a) 在 不 知道 方差 的 情况 下 ， 缓 冲 满 或 溢出 的 延迟 可 能 性 有 多 大 ? 

(b) 假设 已 知 方差 o =0.5， 产 生 延 迟 的 可 能 性 是 多 少 ? 

5. (a) 假设 某 个 处 理 器 具有 如 下 条 件 转移 行为 : 猜 对 目标 的 时 间 开 销 为 3 
个 周期 ， 如 果 猜 错 目标 而 代码 实际 上 不 跳 转 则 有 6 个 周期 的 惩罚 ; 类 似 的 ， 正 确 
猜测 不 跳 转 没有 延迟 惩罚 ， 但 错误 的 猜测 不 跳 转 而 实际 上 代码 跳 转 则 有 6 个 周期 
的 惩罚 。 程 序 跳 转 的 概率 超过 多 少时 应 该 猜测 目标 路 径 ? 

(b) 对 于 一 个 访问 缓存 需要 3 个 周期 ， 物 理 字 长 为 8 字 节 的 L/S 机 器 ， 指 
令 缓冲 需要 多 少 字 (8 字 节 ) 才能 避免 溢出 。 

6. (a) 当 分 支 指令 译 码 时 访问 一 个 分 支 表 缓 冲 (Branch Table Buffer, 
BTB) ， 这 样 在 分 支 译 码 周期 结束 时 目标 地 址 〈 仅 为 目标 地 址 ) 可 用 。 


IF IF D AG 








AG L DF DF EX EX 


对 于 一 个 带 有 BTB AY R/M 机 器 ， 时 序 模板 如 上 所 示 (每 周期 一 个 译 码 ) ， 
非 条 件 分 支 和 条 件 分 支 的 惩罚 分 别 是 多 少 ? 假设 所 有 非 条 件 分 支 和 50% 的 条 件 
分 支 在 BIB 中 命中 ，80% 的 命中 的 条 件 指令 实际 上 跳 转 了 ， 而 20% 未 命中 的 条 
件 指 令 实际 上 跳 转 了 。 

(b) 如 果 目 标 指令 直接 存放 在 BTB 中 ， 非 条 件 分 支 和 条 件 分 支 的 惩罚 分 别 
是 多 少 [假设 条 件 同 (a) ]? 

7. BTB 可 以 和 历史 位 一 同 决定 什么 时 候 将 一 个 目标 放 人 BIB 中 。 这 样 小 容 
量 的 BTB 可 以 变 得 更 高 效 。BTB 大 小 低 于 多 少时 ，2 位 分 支 历 史 方式 更 高 效 
(在 科学 计算 环境 下 )? 

8. 寻找 一 种 商业 VLIW 机 器 和 它 的 指令 布局 ， 试 着 描述 它 ， 并 写 出 计算 
4 +7xB+AxC-D/(AxB) 的 指令 序列 ， 先 将 值 加 载 到 寄存 器 中 再 计算 。 
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9. 重 命名 寄存 器 可 以 代替 指令 集 指 定 的 寄存 器 组 。 试 着 比较 以 下 两 种 情况 : 
没有 寄存 器 组 〈 在 一 个 单一 累加 器 的 指令 集中 ) ; 没有 重 命名 寄存 器 ， 但 在 指令 
集中 有 一 个 大 的 寄存 器 组 。 

10. 寻找 一 个 运用 矢量 处 理 器 的 SoC 配置 ， 从 以 下 几 方 面 描述 矢量 处 理 器 的 
体系 结构 : 寄存 器 组 数量 、 每 组 的 寄存 器 数 、 指 令 格式 等 。 

11. 寻找 一 个 运用 超 长 指令 字 处 理 器 的 SoC 配置 ， 从 以 下 几 方 面 描述 处 理 器 
的 体系 结构 : 寄存 器 组 、 重 命名 寄存 器 个 数 、 控 制 流 和 数据 流 、 指 令 格 式 等 。 
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4.1 引言 


存储 设计 是 系统 设计 的 关键 环节 。 存 储 系统 通常 是 系统 中 消耗 〈 面 积 或 世 
片 数量 ) 最 大 的 部 分 ， 而 且 在 很 大 程度 上 决定 着 系统 的 性 能 。 除 了 处 理 器 和 互 
联结 构 ， 应 用 程序 能 运行 的 最 大 速度 受到 存储 系统 的 限制 ， 因 为 运行 时 所 需要 的 
指令 和 操作 数 都 是 由 存储 器 提供 的 。 

存储 设计 需要 考虑 很 多 方面 的 内 容 。 首 要 方面 就 是 应 用 程序 的 需求 : 操作 系 
统 、 大 小 、 应 用 程序 的 多 样 性 等 。 这 在 很 大 程度 上 决定 了 存储 器 的 大 小 和 存储 寻 
址 方式 : 实地 址 或 虚 地 址 。 图 4. 1 所 示 存 储 设计 框图 。 表 4. 1 给 出 了 不 同 存储 技 
术 所 需 空间 对 比 。 







需求 分 析 





一 些 可 能 输出 结果 





设计 方法 


4.1 存储 设计 框图 
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W 





表 4.1 不 同 存储 技术 所 需 空间 对 比 





存储 技术 | the | 单位 面积 A 上 的 存储 空间 /KB 
DRAM 1800 -3600 
SRAM ee 300 
ROM/PROM 0.2 ~0.8 + 225 ~900 
eDRAM 0.15 1200 


首先 看 SoC 外 部 存储 和 内 部 存储 部 分 ， 然 后 分 析 暂 存 器 和 缓存 来 理解 它们 是 
如 何 工作 和 进行 设计 的 。 之 后 ， 我 们 将 考虑 主 存 问题 ， 首 先是 片上 存储 器 的 设 
计 ， 然 后 是 传统 动态 RAM (Dynamic RAM，DRAM) 的 设计 。 作 为 大 型 存储 系统 
设计 的 一 部 分 ， 还 将 会 分 析 不 同 种 类 的 存储 模块 、 交 叉 存 储 技术 和 存储 系统 的 性 
能 等 方面 的 内 容 。 图 4. 2 给 出 了 一 个 SoC 存储 设计 模型 。 在 本 章 ， 互 联网 路 、 处 
理 器 和 0 设 定 为 理想 状态 ， 这 样 就 能 够 对 存储 器 设计 进行 权衡 考虑 。 










二 级 缓存 /| 数据 结构 
eDRAM | 三 gj 缓存 | 在 


at 
E] 






理想 化 互联 方式 
(固定 访问 时 间 及 足够 的 带宽 ) 





EJ 
n 个 选择 的 处 理 器 ， 拥 有 理想 化 的 执行 时 间 
图 4.2 一 个 SoC 存储 设计 模型 


表 4.2 给 出 了 一 些 内 存 (NAND) 的 封装 形式 ， 它 们 是 能 集成 到 SoC 设计 的 
一 些 存 储 器 。 
表 4.2 一 些 闪存 (NAND) 封装 形式 (2 ~ 128CB) 
大 小 (近似 值 ) 
/(mm x mm x mm) / (MB/s) 


36x43x33 | 114 | 22/18 
2 




















典型 应 用 程序 


标准 闪存 (Compact Flash, CF) 
安全 数位 (Secure Digital, SD) 
Mini SD 
Micro SD 


32 x24 x2.1 22/18 
20 x20 x 1.2 22/18 
15 x11 x0.7 22/15 
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例 1 

需求 的 设计 目标 对 能 达到 的 性 能 值 起 到 很 大 的 作用 。 考 虑 图 4. 1 所 示 两 种 不 
同 的 设计 路 线 : 最 大 功能 设计 方法 和 限制 功能 设计 方法 。 无 论 是 从 片 内 还 是 片 外 
存储 器 的 设计 上 看 ， 它 们 之 间 的 区 别 是 很 细微 的 。 然 而 ， 最 终 的 性 能 可 能 大 相 径 
庭 ， 因 为 片 外 存储 器 需要 很 长 的 访问 时 间 。 如 果 能 够 在 片上 存储 器 中 获取 内 存 内 
A 〈 程 序数 据 和 代码 ) ， 那 么 访 存 时 间 仅 为 3 ~ 10 个 时 钟 周期 。 

片 外 访问 时 间 是 一 个 更 大 的 数量 级 (30 ~ 100 个 周期 ) 。 为 了 达到 相同 的 性 能 ， 
片 外 存储 设计 需要 增加 大 量 的 缓存 ， 通 常会 将 这 些 缓存 划分 为 不 同 的 层级 来 满足 访 
问 时 间 的 要 求 。 实 际 上 ， 缓 存 的 1 MAMRE AEA DRAM (embedded DRAM, 
eDRAM) 1 位 大 50 倍 〈 详 见 本 书 第 2 章 和 4. 13 节 ) 。 所 以 片 外 存储 所 需 的 更 大 组 
存 的 开销 可 能 达到 10 x50 或 500 个 DRAM 位 。 如 果 一 个 存储 系统 使 用 了 10K 个 动 
态 电阻 来 组 成 缓冲 用 来 支持 片上 存储 ， 那 么 芯片 需要 LOOK 个 动态 电阻 来 支持 片 
外 存储 。 其 中 90K 个 动态 电阻 的 面积 差别 可 以 用 来 实现 450K 个 eDRAM 位 。 


4.2 概况 


4.2.1 SoC 外 部 存储 : 闪存 


闪存 技术 发 展 非常 迅速 ， 每 隔 一 段 时 间 就 会 有 新 的 技术 创新 发 布 。 闪 存 不 仅 
是 存储 器 的 替代 者 ， 也 被 广泛 认为 是 磁盘 的 替代 者 。 然 而 ， 在 一 些 环境 和 配置 
下 ， 它 能 够 同时 达到 内 存 和 非 易 失 性 备份 存储 介质 的 作用 。 

闪存 由 一 组 浮 栅 晶 体 管 组 成 ， 这 些 晶体 管 类 似 MOS 晶体 管 ， 但 是 拥有 独特 
的 双 门 结构 : 控制 门 电路 和 绝缘 浮 栅 门 电路 。 电 荷 存储 在 浮 顶端 ， 提 供 非 易 失 性 
存储 功能 。 尽 管 数据 能 够 被 重 写 ， 但 是 目前 的 技术 受 限 于 可 靠 的 重 写 次 数 ， 这 个 
次 数 通常 低 于 百 万 级 。 因 为 降级 使 用 ( degradation with use) 会 成 为 一 个 问题 ， 
所 以 需要 频繁 地 进行 错误 检测 和 纠正 。 

对 于 半导体 设备 来 说 ， 尽 管内 存在 位 密度 方面 有 优势 ， 但 是 其 写 周期 太 长 的 
缺陷 限制 将 其 用 于 存储 那些 需要 频繁 修改 的 数据 ， 如 程序 和 大 型 文件 。 

目前 为 止 ， 有 两 种 闪存 的 类 型 结构 : NOR 和 NAND。NOR 实现 方式 相对 灵活 ， 
但 是 NAND 却 拥有 更 好 的 位 存储 密度 。 而 NOR/NAND 混合 型 实现 则 可 能 会 将 NOR 
阵列 作为 大 块 NAND 阵列 的 缓冲 器 使 用 。 表 4. 3 给 出 了 两 种 闪存 类 型 的 对 比 。 


表 4.3 两 种 闪存 类 型 的 对 比 
技 OR NAND 
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( 续 ) 
典型 容量 64MB 16GB (可 以 由 4 块 或 是 更 多 块 组 成 ) 
传输 率 / (MB/s) 150 300 


程序 存储 和 
应 用 程序 限制 的 数据 存储 替代 磁盘 


闪存 拥有 各 种 封装 形式 。 尺 寸 越 大 的 通常 越 古 老 ( 见 表 4.2)。 小 的 闪存 片 
TUET “HER” A SoC 芯片 上 成 为 一 个 系统 /存储 器 封装 。 闪 存 片 还 可 以 通过 
堆 伙 形成 一 个 大 型 (64 ~256GB) 存储 器 封装 。 

以 目前 的 技术 来 看 ， 闪 存 通常 用 于 片 外 实现 。 然 而 ， 也 有 一 些 闪 存 变 种 设计 
用 于 和 传统 的 SoC 技术 相 兼容 。 例 如 ，SONOS55 是 一 种 非 易 失 性 存储 器 ，Z- 
RAM"! & DRAM 的 一 种 替代 品 。 这 两 者 似乎 都 没有 受到 重 写 次 数 的 限制 。Z- 
RAM 在 提供 更 好 的 存储 密度 的 同时 ， 似 乎 通过 其 他 方式 与 DRAM 速度 兼容 了 。 
而 SONOS 在 提供 更 好 的 存储 密度 的 同时 ， 其 访问 时 间 比 eDRAM 短 。 


4.2.2 Soc 内 部 存储 器 : MER 


存储 系统 设计 中 最 重要 也 最 显著 的 因素 就 是 主 存 储 器 的 放置 点 : 片 内 (和 
处 理 器 在 同一 块 世 片上) 和 片 外 (独立 芯片 或 是 在 多 块 蕊 片 的 某 模块 上 ) 。 就 像 
本 书 第 1 章 指 出 的 情况 一 样 ， 这 个 因素 将 传统 的 工作 站 处 理 器 和 基于 应 用 的 板 卡 
设计 同 SoC 设计 区 别 开 来 。 

存储 系统 的 设计 受到 两 个 基本 因素 的 限制 ， 这 两 个 基本 因素 决定 着 存储 系统 
的 性 能 。 第 一 个 因素 是 访问 时 间 。 访 问 时 间 是 处 理 器 的 访 存 请 求 被 传输 到 存储 系 
统 ， 访 问 数据 单元 ， 然 后 将 数据 返回 给 处 理 器 的 整个 过 程 时 间 。 访 问 时 间 很 大 程 
度 地 受到 物理 设计 因素 的 限制 ， 如 处 理 器 和 存储 器 的 物理 距离 或 者 是 总 线 延 迟 、 
芯片 延迟 等 一 些 其 他 因素 。 第 二 个 因素 是 访 存 宽度 ， 即 单位 时 间 内 存储 器 对 访问 
请 求 的 反应 能 力 。 带 宽 主要 是 由 物理 存储 器 系统 的 组 织 方式 一 一 独立 存储 器 阵列 
的 数量 及 特殊 顺序 访问 模式 的 使 用 一 一 所 决定 的 。 

缓存 系统 必须 弥补 访 存 时 间 和 带宽 的 限制 。 

目标 定位 于 高 性 能 的 工作 站 处 理 器 需要 非常 高 效 的 存储 系统 ， 如 果 把 存储 器 
放置 在 片 外 就 很 难 实现 这 一 点 。 表 4.4 给 出 了 不 同 环境 下 存储 系统 设计 方法 的 
对 比 。 
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表 4.4 不 同 环 境 下 存储 系统 设计 方法 的 对 比 
更 小 ， 可 能 慢 至 1/6 ~1/4 

二 到 三 级 ,非常 大 (4 ~64MB) | WF, HR (256KB) 
复杂 ， 慢 引 脚 限制 
复杂 时 序 和 控制 


非常 大 (16GB 以 上 ) 限 制 带宽 限制 大 小 (256MB) 
20 ~30ns 3 ~5ns 
工作 站 和 基于 主板 的 存储 设计 对 于 设计 者 来 说 是 一 个 很 大 的 挑战 。 此 时 需要 
特别 关注 缓存 ， 因 为 它 必须 能 够 弥补 主 存储 器 位 置 带 来 的 性 能 损失 。 


4.2.3 存储 器 大 小 


通过 本 章 内 容 ， 不 难看 出 ， 如 何 设计 大 容量 片 外 存储 器 成 为 了 主板 系统 设 
计 中 的 主要 问题 。 由 此 看 来 ， 为 什么 不 限制 存储 器 的 大 小 以 期 能 够 合并 到 片上 
呢 ? 在 虚拟 存储 系统 中 ， 应 用 程序 仍然 可 以 访问 大 容量 的 地 址 空间 。 对 于 工作 
站 来 说 ， 应 用 程序 需要 的 环境 (以 操作 系统 作为 代表 ) 有 了 很 大 程度 的 增长 
( 见 图 4.3) 。 随 着 环境 的 继续 增长 ， 工 作 集 和 活动 页 也 继续 增长 。 这 样 就 需要 
更 多 的 实际 (物理 ) 内 存 来 承载 足够 多 的 页 来 避免 过 多 的 页 替换 操作 。 过 多 的 页 替 
换 操作 会 损害 性 能 。 基 于 主板 的 系统 面临 着 稍微 不 同 的 问题 。 在 这 儿 ， 多 媒体 数据 集 
通常 非常 巨大 并 且 需 要 很 大 的 存储 器 带宽 及 多 媒体 处 理 器 的 处 理 能 力 。 然 而 ， 基 于 主 
板 的 系统 有 一 个 优势 ， 只 要 访问 带宽 足够 满足 需求 ， 访 问 时 间 将 不 会 成 为 问题 。 那 么 
能 够 将 多 少 存储 器 放 到 一 个 世 一 需求 空间 大 小 
片上 呢 ? 这 取决 于 技术 工艺 和 ee a ee SO 
所 需求 的 性 能 。 表 4.1 也 给 出 1200 
了 不 同 技术 工艺 所 需要 的 面 
积 。eDRAM 通常 需要 相对 大 
的 存储 阵列 (本章 稍 后 介绍 ) 。 
因此 , 例如 在 一 个 45nm 工艺 
HREF, 预计 能 有 大 约 
49.2kA/cm 或 者 大 约 8MB 的 
eDARM。 高 级 电路 设计 和 技术 95 NT 98 ME xP 
能 够 显著 提高 容量 ， 但 是 大 约 Windows 操作 系统 
64MB 将 会 是 一 个 极限 ， 除 非 图 4.3 ” 几 代 微软 操作 系统 需求 的 磁盘 空间 
能 出 现 一 种 合适 的 闪存 技术 。 (最 新 的 Vista 系统 需要 6GB) 





基于 主板 SoC 
更 小 ， 可 能 慢 至 1/6 ~1/4 
































总 线 控制 器 










在 板 上 特殊 集成 
混合 
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磁盘 空间 /MB 
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4.3 暂 存 器 和 缓存 


相对 小 一 点 的 存储 器 通常 比 大 一 点 的 存储 器 访问 速度 更 快 ， 因 此 将 经 常 访问 
(或 是 期 望 会 被 经 常 使 用 ) 的 指令 集 和 数据 存储 在 一 块 小 的 更 容易 访问 (一 个 周 
期 的 访问 时 间 ) 的 内 存 中 会 非常 有 用 。 如 果 内 存 被 程序 员 直 接管 理 ， 那 么 这 块 
内 存 被 称 为 暂 存 器 ; 如 果 被 硬件 管理 ， 那 么 被 称 为 缓存 。 

内 存 管 理 是 一 个 烦琐 的 过 程 ， 大 多 数 通 用 计算 机 仅 使 用 缓存 存储 器 。 然 而 ， 
SoC 提供 了 可 以 使 用 暂 存 器 的 可 能 。 假 设 使 用 的 是 众所周知 的 应 用 程序 ， 程 序 员 
就 能 够 预先 明确 地 控制 数据 传输 。 除 了 缓存 控制 硬件 能 够 提供 出 额外 的 区 域 来 增 
加 暂 存 器 的 大 小 ， 这 样 也 可 以 提高 性 能 。 

SoC 中 实现 的 暂 存 器 通常 用 于 存储 数据 而 不 是 指令 ， 因 为 简单 缓存 已 能 处 理 
好 指令 ， 效 率 已 经 很 高 。 更 进一步 地 说 ， 通 过 复杂 的 编程 来 直接 控制 指令 传输 是 
不 值得 的 。 

本 章 剩 下 的 部 分 介绍 了 缓存 存储 器 的 理论 和 设计 经 验 。 由 于 介绍 缓存 的 内 容 
非常 多 ， 所 以 人 们 很 容易 遗忘 更 简单 、 更 早 的 暂 存 器 方法 ， 但 是 在 SoC 系统 上 ， 
有 时 候 这 种 简单 的 方法 取得 的 效果 却 是 最 好 的 。 

缓存 的 工作 原理 是 基于 程序 执行 的 局 部 性 原理 。 以 下 是 相关 的 三 个 原理 : 

1. 空间 局 部 性 。 对 于 一 块 特定 的 内 存 区 域 ， 在 程序 执行 的 所 有 时 间 内 ， 这 
块 区 域 或 者 相 邻 的 区 域 将 会 有 更 高 的 可 能 性 被 访问 。 

2. 时 间 局 部 性 。 对 于 对 n 个 区 域 的 一 系列 访问 ， 在 一 段 时 间 内 对 于 相同 区 
域 将 会 有 更 高 的 可 能 性 被 访问 。 

3. 序列 性 。 对 于 对 指定 区 域 的 访问 ， 对 于 接 下 来 的 几 个 访问 , 很 有 可 能 
访问 的 区 域 是 s +1 区域。 这 是 空间 局 部 性 的 特例 。 

缓存 设计 者 们 必须 一 方面 满足 处 理 器 访问 的 各 种 需求 ， 另 一 方面 也 要 满足 内 
存 的 各 种 要 求 。 有 效 的 缓存 设计 方法 会 在 各 种 消耗 之 间 取 平衡 点 。 


4.4 基础 概念 


处 理 器 访问 的 内 容 存 于 缓存 中 时 称 为 缓存 命中 。 访 问 的 内 容 不 存 于 缓存 中 时 
称 为 缓存 失效 。 在 缓存 失效 的 情况 下 ， 缓 存 会 从 内 存 中 取出 失效 的 内 容 并 放 到 组 
存 中 。 通 常情 况 下 ， 缓 存在 内 存 中 取出 的 相关 区 域 的 内 容 称 为 缓存 “ 行 "。 行 中 
的 内 容 包括 一 个 或 多 个 物理 地 址 中 的 字 ， 这 些 内 容 是 从 更 高 一 级 的 缓存 或 是 主 存 
中 取出 。 物 理 字 是 访问 内 存 的 基本 单位 。 

处 理 器 -缓存 接口 定义 了 一 系列 的 参数 。 其 中 直接 影响 处 理 器 性 能 〈 见 图 4.4) 
的 参数 有 以 下 几 种 。 
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TLB 
TLB 失 效率 
及 惩罚 延迟 








(物理 字 大 小 vate 


缓存 失效 
访问 时 间 


图 4.4 影响 处 理 器 性 能 因素 


1. 物理 字 一 一 处 理 器 和 缓存 的 基本 传输 单位 。 

典型 的 物理 字 大 小 : 

2 ~4 字 节 一 一 最 小 值 ， 在 小 核 类 型 处 理 器 中 使 用 。 

8 字 节 及 更 大 一 一 多 发 射 指令 处 理 器 (超标 量 )。 - 

2. 块 大 小 (也 称 行 ) 通常 是 缓存 和 内 存 的 传输 单位 。 它 包括 n THA 
存 经 由 总 线 传输 过 来 的 物理 字 。 

3. 缓存 命中 访问 时 间 一 一 这 个 是 缓存 大 小 和 组 织 形式 固有 的 属性 。 

4. 缓存 失效 访问 时 间 一 一 这 个 是 内 存 和 总 线 的 固有 属性 。 

5. 虚拟 地 址 到 物理 地 址 的 转换 时 间 (不 在 TLB 的 转换 时 间 ) 一 一 地 址 转换 
设备 的 固有 属性 。 

6. 每 个 周期 处 理 器 的 访问 请 求 数量 。 

缓存 性 能 是 由 失效 率 或 是 访问 缓存 没有 命中 的 可 能 性 计算 的 。 失 效 时 间 为 失 
效 次 数 乘 以 失效 后 的 延 时 时 间 。 在 简单 的 处 理 器 中 ， 当 出 现 缓存 失效 后 ， 处 理 器 
会 暂停 执行 。 
缓存 是 处 理 器 的 一 部 分 吗 ? 

对 于 许多 IP 设计 来 说 ， 一 级 缓存 通常 是 集成 到 处 理 器 内 部 的 ， 那 么 ， 为 什 
么 需要 弄 清 缓存 的 细节 呢 ? 需要 和 弄 清 缓存 的 哪些 细节 呢 ? 最 显而易见 的 回答 是 
‘SoC 是 由 多 处 理 器 组 成 ， 多 处 理 器 之 间 需 要 共享 内 存 ， 通 常 的 共享 方式 是 用 一 个 
二 级 缓存 。 更 好 的 回答 是 ， 一 级 缓存 的 细节 有 可 能 成 为 获取 存储 一 致 性 和 合适 的 
程序 操作 的 基础 内 容 。 所 以 ， 缓 存 是 SoC 中 一 个 单独 的 重要 的 部 分 。 要 设计 的 是 
SoC 存储 层次 ， 不 是 孤立 的 缓存 结构 。 
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4.5 缓存 组 织 形式 


缓存 通常 使 用 按 需 取 或 者 预 取 策略 。 前 者 的 组 织 结构 在 简单 的 处 理 器 上 使 用 
广泛 。 一 个 命令 请 求 访问 策略 的 缓存 只 有 当 失 效 发 生 的 时 候 才 会 在 缓存 中 形成 存 
储 局 部 性 。 预 取 策略 试图 通过 局 部 性 原理 猜测 下 一 个 请 求 来 预 取 相应 的 值 。 它 通 
常 在 指令 缓存 中 使 用 。 

有 三 种 基本 的 缓存 组 织 形式 : AK (Fully Associative, FA) 映射 (IL 
图 4.5)、 直 接 映射 〈 见 图 4.6) ， 以 及 组 相 联 〈( 见 图 4.7， 实 际 上 是 前 两 者 的 混 
合 方式 ) 。 在 一 个 FA 缓存 中 ， 当 发 出 一 个 请 求 时 ， 地 址 会 和 目录 中 所 有 的 地 址 
条 目 进行 对 比 〈COMP) 。 如 果 找 到 请 求 的 地 址 (目录 命中 ) ， 缓 存 相应 地 址 的 内 
容 会 被 取出 ; 否则 ， 缓 存 失效 。 

在 直接 映射 缓存 中 ， 行 地 址 的 低位 比特 与 目录 比较 〈( 即 图 4.8 所 示 的 索引 
比特 ) 。 由 于 多 个 行 地 址 会 映射 到 相同 的 缓存 目录 中 ， 所 以 需要 行 地 址 的 高 位 
(标签 位 ) 与 目录 地 址 进行 对 比 来 验证 是 否 命中 。 如 果 比 较 结果 无 效 ， 结 果 为 未 
命中 。 直 接 映 射 缓存 的 优势 是 在 访问 自身 缓存 的 同时 能 够 同时 访问 目录 表 。 


虚拟 地 址 


虚拟 页 号 
(Virtual Page Number, VPN) 











行 和 字 地 址 


实 页 号 
(Real Page Number,RPN) 


/于 标签 (Tag)- 一 
实地 址 


标签 (Tagj 地 址 (Addr 
行 和 字 地 址 


缓存 中 的 行 地 址 


缓存 中 字 的 地 址 


Lanes 


图 4.5 全 相 联 映射 
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缓存 中 每 行 的 标签 


图 4.6 直接 相 联 映射 i 


多 路 输出 
复 用 器 





图 4.7 组 相 联 (多 直接 映射 缓存 ) 映射 
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一 一 字 节 地 址 
一 一 字 地 址 
一 行 地 址 一 ~ 


图 4.8 使 用 时 缓存 地 址 的 分 割 


处 理 器 发 送 给 缓存 的 地 址 被 分 为 多 个 部 分 ， 每 一 部 分 在 存 取 数据 的 时 候 具 有 
不 同 的 作用 。 如 图 4. 8 所 示 的 地 址 分 割 一 样 ， 对 比 操作 (和 目录 中 行 地 址 的 高 
fi) 中 高 位 区 域 称 为 标签 (tag) 。 

下 一 个 部 分 称 为 索引 (index) ， 用 来 在 缓存 目录 中 和 缓存 行 地 址 进行 对 比 。 
标签 加 上 索引 就 是 内 存 中 的 行 地 址 。 

下 一 个 部 分 是 指定 (offset) ， 它 是 在 一 行 中 确定 物理 字 的 地 址 。 

最 后 一 部 分 ， 是 低位 区 域 ， 能 够 确定 一 个 字 中 的 字 节 。 这 些 位 在 缓存 中 通常 
不 使 用 ， 因 为 缓存 访问 通常 都 是 字 大 小 的 。 当 写 一 个 字 的 某 一 部 分 的 时 候 会 引发 
异常 。 

组 相 联 缓存 和 直接 映射 方式 类 似 。 行 地 址 的 位 用 来 确定 缓存 目录 地 址 。 然 
而 ， 现 在 有 多 种 选择 ，2 路 、4 路 或 者 更 多 的 行 地 址 相 联 方式 。 每 个 地 址 对 应 于 
一 个 子 缓存 空间 。 所 有 的 子 缓存 空间 组 成 整个 缓存 阵列 。 这 些 子 阵列 和 目录 可 以 
被 同时 访问 。 如 果 缓 存 目录 中 的 任何 一 个 项 与 访问 地 址 匹配 ， 证 明 访问 命中 ， 组 
存 子 阵列 的 值 被 返回 给 处 理 器 。 虽 然 匹 配 的 过 程 增加 了 缓存 的 访问 时 间 ， 但 是 组 
相 联 缓存 的 访问 时 间 优 于 全 相 联 映射 缓存 。 但 是 直接 相 联 缓存 映射 方式 提供 了 最 
短 的 处 理 器 缓存 访问 时 间 ， 无 论 缓存 有 多 大 。 


4.6 缓存 数据 


缓存 大 小 在 很 大 程度 上 决定 了 缓存 的 性 能 (失效 率 ) 。 缓 存 越 大 失效 率 就 会 
越 低 。 几 乎 所 有 的 缓存 失效 率 数据 都 是 经 验 所 得 ， 并 且 有 特定 的 限制 。 缓 存 数据 
具有 较 强 的 程序 依赖 性 。 同 样 的 ， 这 些 数 据 也 常常 基于 老 的 机 器 ， 在 这 些 机 器 
上 ， 内 存 和 程序 大 小 都 是 固定 的 并 且 很 小 。 这 些 数据 说 明了 尺寸 相对 较 小 的 缓存 
具有 较 低 的 失效 率 。 在 这 种 情况 下 ， 出 现 一 种 倾向 ， 在 特定 大 小 的 缓存 下 ， 测 得 
的 失效 率 随 着 时 间 推 移 有 所 增加 。 这 些 仅 是 在 程序 大 小 逐渐 增 大 的 情况 下 测 得 的 
结果 。 前 段 时 间 ，Smith“ ”发 明了 一 系列 的 设计 目标 失效 率 (Design Target Miss 
Rate，DTMR) ， 它 能 够 估算 出 设计 者 可 以 从 统一 缓存 〈 不 区 分 指令 和 数据 ) 预 
计 得 到 什么 样 的 结果 ， 如 图 4. 9 所 示 。 这 些 数据 是 基于 缓存 功能 和 行 大 小 得 出 的 
典型 缓存 失效 率 。 
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统一 缓存 


0.1 


设计 目标 失效 率 





10 100 1000 10 000 100000 1 000 000 
缓存 大 小 / 字 节 


图 4.9 每 次 访 存 的 设计 失效 率 (全 相 联 ， 命令 取 值 ， 分 配 写 取 值 ，LRU 再 复制 式 策略 ) [21529 


对 于 缓存 容量 大 于 1MB ， 一 个 常用 的 规律 就 是 缓存 的 大 小 增加 一 倍 失效 率 
就 降低 一 半 。 这 个 常用 规律 对 于 基于 事务 的 程序 来 说 没 那么 有 效 。 


4.7 BRB 


当 发 生 写 操作 时 ， 主 存 是 怎样 更 新 的 呢 ? 一 种 方法 是 同时 写 缓存 和 主 存 
( 直 写 9) ， 另 一 种 方法 是 仅 写 缓存 (再 复制 S$，， 有 时候 也 叫 写 回 ) ， 当 这 一 缓存 组 
存 块 发 生 蔡 换 的 时 候 写 回 到 主 存 中 。 这 两 种 策略 是 基本 缓存 写 策略 ( 见 图 4. 10) 。 

每 一 次 CPU 存储 操作 ， 采 用 直 写 策略 的 缓存 〈 见 图 4. 10a) 的 内 容 既 存储 
在 缓存 中 也 存储 在 主 存 中 。 

fim: 这 让 运行 的 程序 在 内 存 中 呈现 的 是 一 个 一 致 的 (最 新 的 ) 场景 。 

缺点 : 内 存 带 宽 有 可 能 很 高 一 一 主要 是 写 数 据 传输 。 

在 写 回 式 缓存 ( 见 图 4.10b) 中 ， 当 缓存 行 被 蔡 换 的 时 候 ， 新 的 数据 才 被 写 
回 到 内 存 中 。 这 要 求 持续 记录 缓存 行 的 修改 〈 或 是 “ 脏 " ) 位 ， 但 这 样 做 的 优势 
是 减少 了 内 存 写 操作 的 数据 流 : 

1. 当 缓存 任意 一 行 发 生 写 操作 ， 相 应 的 修改 位 会 被 置 位 。 


© 直 写 : Write Through, WT. 
© ”再 复制 : Copy Back, CB, Sil; Write Back, 
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a) 直 写 式 





图 4.10 SRE 
a) 直 写 式 缓存 〈 写 不 分 配 ) b) 写 回 式 缓存 (SAE) 

2. 从 各 种 各 样 的 记录 (Traces) ”来 看 ， 平 均一 行 的 替换 率 为 47% (20% 
~80% ) 。 

3. 经 验 法 则 : 被 替换 的 数据 行 中 有 半数 是 修改 的 。 因 而 ， 对 于 数据 缓存 ， 假 
设 有 50% 是 修改 的 ; 对 于 统一 缓存 假设 有 30% 是 修改 的 。 

大 多 数 大 型 缓存 使 用 的 是 写 回 策略 ; 直 写 式 缓存 仅 局 限于 小 型 缓存 或 是 特殊 
用 途 缓存 ， 这 些 缓存 能 够 提供 及 时 的 内 存 更 新 映像 。 最 后 ， 当 一 次 写 操作 (存储 
操作 ) 在 缓存 中 失效 该 如 何 处 理 呢 ? 可 以 从 内 存 中 获取 这 一 行 的 内 容 ( 写 分 配 9)， 
或 者 直接 写 回 到 内 存 中 ( 非 写 分 配 S)。 多 数 直 写 式 缓存 采取 不 分 配 策 略 (Write 
Through No Write Allocate，WTNWA) ， 而 大 多 数 写 回 式 Cache 采取 分 配 策略 (Copy 
Back Write Allocate, CBWA), 


4.8 失效 替换 策略 


缓存 失效 后 会 发 生 什 么 ? 如 果 访 问 地 址 没有 在 目录 中 被 找到 ， 那 么 一 次 缓存 
失效 即 发 生 。 发 生 失 效 情 况 后 ， 需 要 迅速 采取 两 步 操作 : (1) 失效 的 行 需要 从 
内 存 中 获取 出 来 ; (2) 缓存 中 的 某 一 行 需要 被 当前 所 访问 行 (失效 行 ) 的 内 容 
替换 出 去 。 


© 54t: Write Allocate, WA. 
© 非 写 分 配 : No Write Allocate, NWA, 
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4.8.1 读 取 一 行 

在 直 写 式 缓存 中 ， 读 取 一 行 的 操作 包括 访问 失效 行 的 内 容 并 且 将 内 容 蔡 换 到 
缓存 行 中 。 

对 于 写 回 式 策略 ， 需 要 首先 决定 要 车 换 掉 的 行 是 否 是 “ 脏 ” 行 (CARS 
过 ) 。 如 果 行 未 被 写 过 ， 处 理 方式 和 直 写 式 的 一 样 。 然 而 ， 如 果 行 是 脏 的 ， 必 须 
将 脏 行 写 回 到 内 存 中 。 

在 访问 一 行 时 ， 最 快 的 访问 方式 是 非 阻塞 缓存 或 者 预 取 缓存 。 这 种 方法 在 直 
写 式 和 写 回 式 缓存 中 都 可 适用 。 在 此 ， 缓 存 拥有 额外 的 控制 硬件 ， 可 以 允许 缓存 
失效 被 处 理 〈 或 旁 路 掉 ) ， 同 时 处 理 器 可 以 继续 执行 。 这 种 策略 仅 适 用 于 当 访 问 的 
数据 不 是 处 理 器 目前 所 需要 的 情况 下 。 处 理 器 使 用 非 阻 塞 式 缓存 加 上 编译 器 提供 的 
预 取 行 机 制 ， 可 以 取得 非常 好 的 效果 。 非 阻塞 式 缓存 的 有 效 性 依赖 以 下 两 方面 : 

1. 处 理 器 继续 执行 时 ， 可 以 旁 路 掉 的 失效 缓存 的 数量 ; 

2. 预 取 的 有 效 性 和 足够 的 缓冲 区 来 保存 预 取 的 信息 ; 期 望 使 用 之 前 预 取 的 
时 间 越 长 ， 失 效 延 迟 就 会 越 小 ， 但 是 这 也 意味 着 缓冲 区 或 是 寄存 器 会 被 占用 ， 因 
此 当前 不 能 被 使 用 。 


4.8.2 行 替 换 


当 缓存 满 了 的 时 候 ， 通 过 替换 策略 选择 一 行 用 来 替换 掉 。 有 三 种 替换 策略 被 
广泛 使 用 : 

1. 最 近 最 少 使 用 (Least Recently Use, LRU), ， 即 最 近 一 段 时 间 最 少 被 访问 
的 〈 读 或 者 写 ) 会 被 替换 掉 。 l 

2. 先 人 先 出 ( First In-First Out，FIFO) ， 即 在 缓存 中 最 久 的 会 被 替换 掉 。 

3. 随机 替换 (Random Replacement, RAND), ， 即 随机 选择 要 替换 的 行 。 

因为 LRU 策略 符合 时 间 局 部 性 的 概念 ， 所 以 大 多 数 都 会 选择 这 个 策略 。 同 
时 这 种 方法 的 实现 也 是 最 复杂 的 。 每 一 行 都 会 有 一 个 计数 器 ， 读 或 者 写 操作 的 时 
候 就 会 更 新 。 由 于 这 些 计 数 器 可 能 会 很 大 ， 所 以 常 通过 使 用 较 小 的 计数 器 来 近似 
真实 的 LRU 策略 。 

虽然 LRU 的 效果 比 FIFO 或 者 RAND 要 好 一 点 ,但 是 使 用 简单 的 RAND 或 是 
FIFO 相对 于 LRU 来 说 仅 增加 了 10% RART 


4. 8.3 ”缓存 环境 : 系统 、 事 务 和 多 道 程序 的 影响 


许多 可 用 的 缓存 数据 都 是 基于 研究 用 户 程序 的 记录 (trace) 得 来 的 。 真 正 
的 应 用 程序 运行 在 系统 的 上 下 文 〈context) 。 基 于 用 户 程序 运行 的 经 验 可 知 ， 操 
作 系统 的 失效 率 会 有 轻微 的 增加 (20% 左右) "。 

多 道 程序 环境 对 缓存 提出 了 特殊 的 要 求 。 在 这 种 环境 下 ， 缓 存 失 效率 有 可 能 
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不 会 随 着 缓存 大 小 的 增加 而 受到 影响 。 环 境 有 以 下 两 种 : 

1. 多 道 程 序 环境 。 操 作 系 统 和 一 些 程序 会 常 驻 内 存 。 系 统 会 控制 程序 在 执 
行 完 成 O 条 指令 之 后 跳 转 执行 其 他 的 程序 ， 如 此 继续 ， 直 到 最 后 返回 到 第 一 个 
程序 。 这 种 环境 会 形成 所 谓 的 “ 热 缓存 ”的 结果 。 当 一 个 进程 返回 后 继续 执行 ， 
它 会 发 现 一 些 〈 不 是 全 部 ) 自己 最 近 使 用 的 缓存 行 存 于 缓存 中 ， 这 样 增加 了 预 


计 的 缓存 失效 率 (图 4. 11 所 示 的 结果 ) 。 
平均 访问 量 
(存储 器 参量 ) 


多 程序 级 数 为 2， 行 大 小 为 16 字 节 





10 100 1000 10000 100000 1000000 
缓存 大 小 /B 
图 4. 11 MART 〈 多 道 程序 环境 中 执行 Q 条 指令 后 任务 切换 时 缓存 的 失效 率 ) 


2. 事务 处 理 环 境 。 当 操作 系统 和 一 定数 量 的 程序 常 驻 内 存 时 ， 一 些 短 的 应 
用 程序 (事务 ) 运行 至 结束 。 每 个 应 用 程序 包括 @ 条 指令 。 这 种 环境 有 时 候 被 


称 为 “ 冷 缓存 "” 。( 见 图 4. 12) 。 
行 大 小 16 字 节 ，4 组 相 联 








10° 平均 访问 量 
(存储 器 参量 ) 
tie 100 
ENS eee 100 
i} 
NA 10 000 
NN 
w 10 eS 20 000 
ee 
ENS 100 000 
[te ane ek es ON N : 
设计 目标 
失效 率 
10? 
10! 10? 103 104 105 106 


缓存 大 小 /B 
图 4.12 冷 缓存 (事务 处 理 环境 下 执行 0 条 指令 后 任务 切换 时 缓存 失效 率 ) 
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以 上 描述 的 这 两 种 环境 都 有 一 个 明显 的 特征 ， 在 加 载 完 工作 集 之 前 ， 控 制 权 
会 从 一 个 程序 传递 给 其 他 程序 。 这 样 会 大 大 增加 缓存 的 失效 率 。 


4.9 其 他 类 型 的 缓存 


目前 为 止 ， 仅 考虑 了 简单 的 集成 缓存 〈 也 被 称 为 “统一 ”缓存 ) ， 既 包括 数 
据 缓存 也 包括 指令 缓存 。 接 下 来 将 探讨 不 同 种 类 的 其 他 缓存 。 表 4. 5 给 出 了 缓存 
的 基本 类 型 ， 但 很 难 将 所 有 的 缓存 描述 详尽 ， 其 中 包括 多 种 用 于 特殊 甚至 是 普通 
应 用 的 缓存 设计 。 


表 4.5 缓存 的 基本 类 型 





类 型 常用 位 置 
A inlA 者 y ZZ n 乡 
集成 (或 统一 ) a i 适合 所 有 访问 类 型 (指令 和 数据 ) 。 常 用 于 二 级 或 更 高 级 
分 离 缓 存 (指令 和 数据 ) 提供 更 多 的 访问 带宽 ， 失 效率 也 会 上 升 。 常 用 于 第 一 级 处 理 器 缓存 
扇形 缓存 提高 了 片上 缓存 面积 有 效 性 (给 定 区 域 的 失效 率 ) 
多 级 缓存 第 一 级 快速 访问 ; 第 二 级 通常 比 第 一 级 大 很 多 ， 用 来 减少 一 级 缓存 失效 
带 来 的 延迟 
写 集合 缓存 特殊 化 的 类 型 ， 减 少 写 拥 塞 ， 通 常 使 用 WT 片上 一 级 缓存 


目前 可 用 的 微 处 理 器 中 ， 大 多 数 使 用 分 离 的 指令 缓存 (I-Cache) .和 数据 组 
存 (D-Cache) ， 下 面 会 提 到 。 


4.10 分 离 的 指令 缓存 和 数据 缓存 及 代码 密度 的 影响 


多 缓存 结构 可 以 集成 到 一 个 处 理 器 设计 中 , 每 一 个 缓存 服务 一 个 指定 的 处 理 
fto FEAR, 针对 于 系统 代码 和 用 户 代 码 的 特殊 缓存 ,甚至 特殊 的 输入 /输出 
(V0) 缓存 都 被 研究 过 。 最 流行 的 缓存 划分 配置 方式 是 将 指令 和 数据 缓存 分 开设 计 。 

分 离 的 指令 和 数据 缓存 可 以 带 来 很 大 的 缓存 带宽 增长 ， 并 且 使 得 整体 缓存 的 
访问 能 力 提 高 了 一 倍 。 但 是 ， 指 令 缓存 和 数据 缓存 会 带 来 一 些 消耗 ; 相同 大 小 的 
统一 缓存 的 失效 率 会 比 数据 缓存 和 指令 缓存 的 失效 率 低 一 些 。 在 统一 缓存 中 ， 指 
令 和 数据 工作 集 单元 的 比例 随 着 程序 的 执行 会 不 断 改 变 ， 同 时 也 会 受到 替换 策略 
的 影响 。 

分 离 的 缓存 拥有 实现 上 的 优势 。 这 些 缓存 不 需要 平均 分 配 ， 因 为 75% : 25% 
的 分 配 比 例 或 是 其 他 比例 被 证 明 会 更 为 有 效 。 同 样 ， 指 令 缓存 因为 不 需要 考虑 存 
储 操作 ， 所 以 在 实现 上 会 相对 简单 。 
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4.11 多 级 缓存 


4.11.1 缓存 阵列 大 小 的 限制 


缓存 由 SRAM 存储 阵列 单元 组 成 。 随 着 阵列 大 小 的 增加 ， 需 要 访问 到 最 远 
单元 的 连 线 也 跟着 变 长 。 这 会 最 终 影 响 缓存 的 访问 延迟 。 访 问 延 迟 计算 公式 由 组 
存 大 小 、 组 织 形式 及 处 理 技术 组 成 (特征 尺寸 /) McFarland!" 48 H T EIR AOE 
模 并 且 找 到 了 近似 计算 公式 如 下 : 


A 


式 中 , f 的 单位 为 um; C 为 缓存 阵列 容量 ， 单 位 为 KB; A 为 相 联 度 (直接 相 联 
为 1); Access Time 的 单位 为 ns, 

公式 如 图 4.13 所 示 (4 = 
1) 。 如 果 限 制 一 级 缓存 的 访问 
时 间 低 于 lns， 那 么 将 有 可 能 
将 缓存 阵列 的 大 小 限制 在 
32KB。 因 为 可 能 交叉 使 用 一 
些 不 同 的 阵列 ， 交 叉 结 构 也 有 
一 定 的 开销 。 所 以 通常 情况 
下 , 一 级 缓存 低 于 64KB; 二 
级 缓存 通常 低 于 512KB (有 可 


Access time = (0. 35 +3. 8f + (0. 006 +0. 025f) C) x [ +0.3 (1 +4) | 


时 间 /ns 





能 交叉 形式 使 用 更 小 的 阵列 ) ; yr 4 i 16 32 64 128 256 512 
三 级 缓存 使 用 256KB 多 种 阵列 容量 /KB 

或 者 更 多 来 形成 大 的 缓存 ， 通 图 4.13 缓存 访问 时 间 ( 单 阵列 为 例 ) 

常会 受到 芯片 大 小 限制 。 与 缓存 阵列 容量 函数 


4.11.2 评估 多 级 缓存 


在 多 级 缓存 的 情况 下 ， 可 以 使 用 一 级 缓存 数据 来 评估 这 两 级 缓存 性 能 。 一 个 
两 级 的 缓存 系统 ， 如 果 高 层级 的 缓存 (一 级 ) 所 有 的 内 容 都 包含 在 低层 级 的 组 
F (ZR) F, 那么 称 其 为 “包含 缓存 ”。 

二 级 缓存 通过 包含 原则 来 获得 分 析 数 据 。 也 就 是 说 ， 一 个 大 的 二 级 缓存 包括 
”一 级 缓存 中 相同 的 行 。 因 此 ， 为 了 评估 性 能 ， 可 以 假设 一 级 缓存 不 存在 。 决 定 二 
级 缓存 发 生 的 所 有 缓存 失效 数量 时 ， 可 以 假设 处 理 器 的 所 有 请 求 直 接 发 送 给 二 级 
缓存 ， 而 没有 经 过 一 级 缓存 。 
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在 二 级 缓存 设计 的 时 候 会 考虑 去 适应 已 经 存在 的 一 级 缓存 。 二 级 缓存 的 行 大 
小 应 当 和 一 级 缓存 的 相同 或 更 大 。 否 则 ， 如 果 二 级 内 存 
缓存 的 行 大 小 小 于 一 级 缓存 ， 加 载 一 级 缓存 中 的 数 
据 行 时 会 引起 二 级 缓存 的 两 次 失效 。 进 一 步 来 说 ， 
二 级 缓存 应 当 远 远大 于 一 级 缓存 ， 否 则 ， 二 级 缓存 
将 起 不 到 什么 作用 。 

在 一 个 两 级 缓存 系统 中 ， 如 图 4. 14 所 示 ， 对 于 
一 级 缓存 和 二 级 缓存 ， 我 们 将 失效 率 定义 如 下 Cl : 

1. 局 部 失效 率 就 是 简单 地 将 失效 数量 除 以 访问 
请 求 数量 。 这 是 通常 意义 上 理解 的 失效 率 。 

2. 全 局 失效 率 是 二 级 缓存 失效 数量 除 以 处 理 器 g 
的 请 求 数量 。 这 是 对 二 级 缓存 最 基本 的 测量 。 HEU Ae eee 

3. 单独 失效 率 是 指 二 级 缓存 的 失效 率 ， 如 果 二 级 缓存 是 系统 中 唯一 的 缓存 
的 话 。 这 是 在 包含 原则 下 定义 的 失效 率 。 如 果 二 级 缓存 包含 所 有 的 一 级 缓存 ， 可 
以 在 忽略 一 级 缓存 的 情况 下 计算 二 级 缓存 的 失效 率 和 处 理 器 的 访问 率 。 包 含 式 组 
存 的 原则 是 基于 全 局 失效 率 和 单独 失效 率 一 致 的 基础 ， 这 可 以 在 设计 上 使 用 单独 
失效 率 来 评估 全 局 失效 率 。 

先前 的 数据 ( 只 是 读 失 效率 ) 说 明了 一 些 在 多 级 缓存 分 析 和 设计 时 的 要 点 : 

1. 只 要 一 级 缓存 和 二 级 缓存 一 样 大 或 者 更 大 ， 在 包含 的 原则 下 ， 可 以 很 好 
地 评估 二 级 缓存 的 行为 。 

2. 当 二 级 缓存 远 远大 于 一 级 缓存 时 ， 二 级 缓存 可 以 被 认为 与 一 级 缓存 相互 
独立 。 它 的 失效 率 和 单独 失效 率 相当 。 





例 4.1 
缓存 
二 级 缓存 比 一 级 缓存 大 4 倍 以 上 
失效 代价 : 
一 级 缓存 失效 ， 二 级 缓存 命中 : 2 个 周期 
一 级 缓存 失效 ， 二 级 缓存 失效 : 15 个 周期 


假设 我 们 有 一 个 两 级 缓存 ， 失 效率 分 别 是 4% (一 级 缓存 ) 和 1% (二 级 组 
FF) 。 假 设 一 级 缓存 失效 、 二 级 缓存 命中 的 开销 是 2 个 周期 ， 两 者 都 失效 的 时 间 
开销 是 15 个 周期 〈 比 二 级 缓存 命中 多 13 个 周期 ) 。 如 果 处 理 器 每 条 指令 访问 一 
次 缓存 ， 可 以 计算 出 由 于 缓存 失效 所 引起 的 额外 的 CPI 的 值 : 
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一 级 缓存 失效 时 额外 的 CPI 值 
= 1.0 refr/inst x0. 04 misses/refr x 2 cycles/miss 
= 0.08 CPI 
二 级 缓存 失效 时 额外 的 CPI 值 
= 1.0 refr/inst x0. O01 misses/refr x 13 cycles/miss 
= 0. 13 CPI 
TERE: 二 级 缓存 失效 时 间 开销 为 13 个 周期 ， 不 是 15 个 周期 ， 因 为 二 级 缓存 
失效 已 经 在 一 级 缓存 额外 的 CPI 中 占用 了 2 个 周期 ， 即 
所 有 影响 = 额外 的 一 级 缓存 CPL + 额外 的 二 级 缓存 CPI 
=(0.08 + 0.13)CPI 
=0. 21CPI 
目前 一 些 SoC 处 理 器 的 缓存 配置 如 表 4. 6 所 示 。 
表 4.6 一 些 SoC 处 理 器 的 缓存 配置 
SoC 二 级 缓存 


NetSilicon NS9775!185] 8KB I-77, 4KB D- 绥 存 一 
NXP LH7A4040186] 8KB I- 缓 存 ，8KB D- 缓 存 = 


Freescale e600!!! 32KB I- 缓 存 ，32KB D- 缓 存 1MB ( 带 ECC) 
Freescale PowerQUICCII!'! 32KB I-77, 32KB D- 缓 存 256KB (# ECC) 
ARM 1136] (F) -S024] 64KB I-Z, 64KB D- 缓 存 最 大 512 KB 


4.11.3 逻辑 包含 


真 包含 或 是 逻辑 包含 不 应 当 和 统计 学 上 的 包含 相 混淆 。 一 级 缓存 所 有 的 内 容 
常 驻 二 级 缓存 ， 二 级 缓存 常常 包含 一 级 缓存 的 数据 内 容 ， 并 不 总 是 包含 。 对 于 逻 
辑 包 含 ， 常 会 有 一 系列 的 要 求 。 显 而 易 见 ， 一 级 缓存 必须 是 WT 式 的 ; 二 级 缓存 
并 不 需要 。 如 果 一 级 缓存 是 CB 式 的 ， 一 级 缓存 的 行 写 操作 不 会 立即 写 到 二 级 组 
存 中 ， 这 样 一 级 缓存 和 二 级 缓存 的 内 容 就 会 不 一 致 。 

当 需 要 逻辑 包含 方式 时 ， 有 必要 强制 一 级 缓存 和 二 级 缓存 的 内 容 相 一 致 ， 并 
且 使 用 缓存 一 致 性 策略 。 

共享 存储 多 处 理 器 需要 整体 一 致 的 存储 映 象 ， 因 而 逻辑 包含 在 该 类 系统 设计 
中 是 一 个 首要 问题 。 


4.12 虚实 转换 


TLB 通过 将 虚拟 地 址 转换 为 实地 址 来 向 缓存 提供 地 址 。 
图 4. 15 给 出 了 一 个 两 路 相 联 TLB。 页 地 址 (虚拟 地 址 的 高 位 ) 由 需要 转换 
的 地 址 位 组 成 。 被 选择 的 虚拟 地 址 位 用 来 选中 TLB 中 的 项 。 这 些 位 是 从 虚拟 地 
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址 中 被 选择 的 〈 或 是 通过 哈 希 选 中 ) 。 这 样 避免 了 大 量 的 地 址 冲突 。 例 如 ， 当 地 
址 和 数据 也 有 相同 的 低位 时 就 会 发 生 冲 突 ， 如 “000”。 虚 拟 地 址 的 大 小 等 于 logt, 
t 的 值 是 TLB 中 的 项 数 除 以 相 联 度 。 当 一 个 TLB 项 被 访问 时 ,会 读 取 一 个 虚拟 地 址 
和 实地 址 映射 对 。 虚 拟 地 址 会 和 虚拟 地 址 标签 (索引 位 之 外 虚拟 地 址 位 ) 相 比 较 。 


如 果 对 比 相 匹 配 ， 相 应 的 实地 址 会 使 用 多 路 复 用 方式 从 TLB 中 输出 。 
虚拟 地 址 









是 选择 Ri 或 R， 
实 高 位 地 址 
图 4.15 一 个 两 路 相 联 TLB 


尽管 页 地 址 的 分 配 非常 仔细 ,但 是 在 访问 缓存 的 同时 也 会 去 访问 TLB 的 内 容 。 
当 未 在 TLB 中 找到 转换 结果 时 ， 需要 重复 执行 操 作 ， 在 TLB 中 创建 一 个 正确 的 虚拟 - 
实地 址 对 ， 操 作 过 程 在 本 书 第 1 二 三 三 三 三 : 
章 有 详细 描述 。 这 有 可 能 要 10 
个 周期 以 上 的 时 间 ; TLB 失效 
(没有 存 于 TB 中 ) BES °'OE S| 
响 性 能 的 。TLB 访问 在 许多 情 : 
况 下 类 似 缓存 访问 。FA TLB 总 
体 来 说 速度 较 慢 ， 但 是 四 路 或 0 三 
是 更 高 的 组 相 联 TLB 性 能 较 好 ， 
总 体 来 说 更 具 吸引 力 。 

图 4.16 给 出 了 典型 的 iii 64 128 256 512 1024 2048 4096 
TLB 失效 率 。FA 数据 类 似 四 TLB 项 (地 址 对 ) 
路 组 相 联 的 数据 。 图 4.16 典型 的 TLB 失效 率 


RA 
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对 于 那些 SoC 或 基于 主板 的 虚拟 地 址 系统 ， 需 要 额外 考虑 其 他 情况 : 

1. TLB 太 小 会 导致 过 多 的 TLB 失效 错误 ， 给 程序 运行 增加 了 很 多 时 间 开 销 。 

2. 如 果 缓 存 使 用 实际 地 址 ， 访 问 TLB 必须 在 访问 缓存 之 前 ， 这 样 增 加 了 绥 
存 访问 时 间 。 

过 多 的 TLB 缺失 可 以 通过 TLB 的 优化 设计 来 控制 。TLB 的 大 小 和 组 织 形式 
设计 需要 根据 目标 系统 的 性 能 来 确定 。 

一 般 来 说 ， 大 多 数 的 TLB 使 用 指令 和 数据 分 离 转换 的 方式 。 这 两 种 TLB 都 
可 能 使 用 128 项 、 两 路 组 相 联 ， 以 及 使 用 LRU 替换 算法 。 目 前 ， 一 些 SoC 处 理 
器 的 TLB 配置 如 表 4.7 所 示 。 


表 4.7 一 些 SoC 处 理 器 TLB 配置 
组 织 形 式 
独立 的 -LTLB，D-TLB 













Freescale e6001! 128 项 ， 两 路 组 相 联 ，LRU 


NXP LH7A4041186] 










NetSilicon NS9775 (ARM926EJ-S) [185] 32 项 ， 两 路 组 相 联 
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片上 存储 设计 是 通用 存储 系统 设计 的 一 个 特例 ，4. 14 节 将 讨论 通用 存储 系 
统 的 设计 。 设 计 者 在 存储 系统 本 身 的 选择 及 整体 缓存 - 主 存 组 织 形式 上 有 更 大 的 
灵活 性 。 一 旦 掌握 了 应 用 程序 的 特性 ， 可 以 估计 出 需要 存储 的 程序 和 数据 的 大 
小 。 很 多 情况 下 ， 部 分 程序 会 以 固件 ROM 的 形式 存储 。 剩 余 的 存储 器 是 由 
SRAM 或 DRAM 构成 。SRAM 的 实现 方式 是 和 实现 处 理 器 的 处 理 过 程 一 样 的 ， 一 般 
情况 下 ，DRAM 则 不 同 。1 个 SRAM 位 包括 了 6 个 晶体 管 单元 ，DRAM 则 只 有 1 个 
晶体 管 加 上 1 个 深 沟 电 容 。DRAM 单元 设计 目标 是 争取 最 大 的 密度 ， 因 而 使 用 了 很 
少 的 连 线 层 。DRAM 的 设计 目标 是 低 刷 新 率 和 加 强 的 低 漏电 电流 。1 个 DRAM 单元 
使 用 了 纳米 级 长 度 的 晶体 管 ， 更 高 的 临界 电压 (VW)， 就 为 了 能 够 达到 一 个 更 低 的 
漏电 电流 。 这 样 更 容易 导致 门 电路 驱动 过 度 及 更 慢 的 翻转 。 对 于 一 颗 独立 芯片 ， 
最 终 的 结果 就 是 SRAM 的 速度 比 DRAM 快 10 ~20 倍 ， 密 度 是 其 1/10 以 下 。 

eDRAML2 59 的 引入 对 于 片上 存储 设计 来 说 是 一 个 折 中 的 选择 。 因 为 在 SoC 
上 实现 eDRAM 需要 更 多 的 处 理 步 又， 需要 大 量 的 加 工 制 造成 本 ， 并 被 看 做 是 硬 
IP (或 者 至 少 是 固 IP)。 因 为 eDRAM 有 一 项 开销 ( 见 图 4.17) ， 所 以 导致 相对 
于 DRAM 来 说 密度 要 小 。eDRAM 的 设计 复杂 ， 包 括 制造 三 层 额 外 的 掩 膜 层 ， 这 
会 导致 比 DRAM 多 20% 的 成 本 。 
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制造 流程 上 的 面积 开销 





图 4.17 片上 SRAM 和 eDRAM (eDRAM 必须 符合 处 理 逻 辑 的 要 求 ， 
意味 着 一 种 开销 ; SRAM 不 受 影响 ) 


对 于 采用 eDRAM 技术 的 SoC， 可 以 在 同一 块 芯片 上 集成 高 速 、 高 漏电 逻辑 晶 . 
体 管 和 低速 、 低 漏电 的 存储 晶体 管 。eDRAM 的 优势 在 于 集成 密度 高 ， 如 图 4. 18 所 
示 。 因 此 选择 eDRAM 而 不 是 SRAM 的 一 个 重要 因素 就 是 基于 存储 器 大 小 的 要 求 。 

eDRAM 在 付出 加 工 成 本 的 代价 后 ， 其 时 间 参 数 比 传统 的 DRAM 好 很 多 。 
eDRAM 的 周期 时 间 〈 及 访问 时 间 ) 接近 于 SRAM， 如 图 4. 19 所 示 。 所 有 类 型 的 片 
上 存储 器 都 可 以 借助 带宽 的 优势 ， 每 个 周期 都 可 以 作为 一 个 整体 的 存储 列 被 访问 。 


12 
5 
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SRAM 存 储 大 小 /MB 工艺 /nm 
图 4.18 随 存储 大 小 改变 eDRAM 的 图 4.19 随机 访 存 时 间 周 期 数 
相对 密度 优势 示意 图 


选择 存储 器 的 最 后 一 个 因素 是 考虑 到 辐射 带 来 的 预期 错误 率 ( 称 软 错误 率 ©) 。 
每 个 DRAM 单元 比 SRAM 单元 存储 的 电荷 要 多 很 多 。SRAM 单元 更 快 也 更 容易 
发 生 翻转 ， 这 样 就 导致 更 高 的 SER。 另 外 ， 对 于 一 个 SRAM 单元 来 说 ， 从 工艺 角 


© HRR: Soft Error Rate, SER, 
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度 来 看 ， 决 定 产生 一 个 错误 的 临界 电 70 
荷 数量 会 随 着 增 大 供给 电压 和 单元 容 
量 而 降低 。 不 同 点 如 图 4.20 所 示 。 
甚至 在 130nm 特征 大 小 的 情况 下 ， 1 
SRAM 的 SER 大 约 比 eDRAM 高 1800 
售 。 当 然 ， 对 于 更 易 产生 错误 的 
SRAM 来 说 ， 可 以 使 用 更 广泛 的 ECC 1 
来 进行 弥补 ， 但 这 也 会 带 来 一 些 ECC 


SER 比 


的 自身 的 开销 。 
总 而 言 之 ， 片 上 存储 实现 技术 的 Oo 二 ae 

选择 依赖 制造 的 复杂 程度 和 存储 容量 工艺 /mm 

的 要 求 。 4.20 SRAM 相对 于 eDRAM 的 SER 


4.14 片 外 (基于 主板 ) 存储 系统 


在 众多 处 理 器 设计 中 (可 能 除了 SoC 外 的 所 有 情况 ) ， 主 存 系统 都 是 主要 的 
设计 挑战 。 因 为 处 理 器 的 整体 设计 会 相当 复杂 ， 所 以 服务 于 相应 处 理 器 的 存储 系 
统 的 设计 也 会 相应 非常 复杂 。 

存储 模块 包括 所 有 的 需要 将 缓存 行 通过 总 线 传送 给 处 理 器 的 芯片 。 缓 存 行 的 
传送 是 以 总 线 突 发 字 的 传送 方式 进行 的 。 每 个 存储 模块 包含 两 个 重要 的 参数 : 模 
块 访问 时 间 和 模块 周期 时 间 。 模 块 访问 时 间 是 指 对 于 一 个 特定 的 存储 器 ， 当 在 地 
址 寄存 器 给 出 有 效 的 地 址 时 ， 从 存储 器 中 读 取 一 个 字 到 输出 缓冲 寄存 器 所 消耗 的 时 
间 。 存 储 器 服务 (周期 ) 时间 是 指 对 同一 存储 模块 的 两 次 直接 访问 之 间 的 最 小 时 
间 。 不 同 的 工艺 导致 了 访问 时 间 和 服务 时 间 之 间 的 巨大 差别 。 访 问 时 间 是 指 处 理 器 
访问 存储 行 操 作 的 全 部 时 间 。 
在 一 个 小 型 简单 的 存储 器 系统 
中 ， 访 问 时 间 可 能 比 芯 片 访问 
时 间 加 上 多 路 复 用 和 传输 延迟 
稍 多 一 点 。 服 务 时 间接 近 芯 片 
的 周期 时 间 。 在 一 个 大 型 多 模 
块 存 储 系统 中 ( 见 图 4.21), 
访问 时 间 会 显著 增加 ， 目 前 来 
说 包括 模块 访问 时 间 加 上 传输 
时 间 、 总 线 访 问 开 销 、 错 误 检 ”图 4.21 复杂 存储 系统 的 访问 延迟 (访问 时 间 包 括 
测 及 纠正 等 延迟 。 芯片 访问 、 组 件 开 销 和 总 线 传输 ) 







存储 器 模块 


数据 
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多 年 来 ， 随 着 DRAM 存 取 芯片 的 稳步 进展 ， 近 几 年 越 来 越 重 视 存 储 芯 片 性 
能 〈 而 不 仅仅 是 大 小 ) 。 

对 于 DRAM 来 说 ， 最 重要 的 成 就 是 同步 DRAM (Synchronous DRAM, SDRAM) 
的 出 现 。 这 种 技术 将 DRAM 访问 和 周期 时 间 与 总 线 时 间 同 步 起 来 。 其 他 方面 的 提 
高 加 快 了 总 线 和 模块 的 数据 传输 速度 ， 同 时 提高 了 它们 的 电器 特性 。 现 在 有 各 种 
各 样 的 SDRAM。 基 本 的 DRAM 类 型 如 下 : 

1. DRAM 异步 DRAM, 

2. SDRAM 一 一 存储 模块 时 序 和 存储 器 总 线 时 钟 同步 。 

3. 双 速 SDRAM (Double Data Rate SDRAM, DDR SDRAM) 一 一 存储 模块 在 
每 个 总 线 周期 获取 双 倍 长 度 的 传输 单元 ， 并且 以 两 倍 的 总 线 时 钟 速率 传输 。 

下 面 将 介绍 异步 DRAM 的 基础 知识 。 之 后 将 介绍 更 加 高 级 的 SDRAM, 


4.15 简单 DRAM 和 存储 阵列 





最 简单 的 异步 DRAM 包括 一 个 单 存 储 阵列 ， 具 有 一 个 (有 时 候 是 4 个 或 6 
个 ) 输出 位 。 芯 片 内 部 是 一 个 行列 编 址 的 二 维 存储 单元 阵列 。 如 此 ， 内 存 地 址 
的 一 半 用 来 识别 行 地 址 ，2” 行 中 的 一 行 ， 另 一 半 的 地 址 同样 地 用 来 识别 2” 列 
中 的 一 列 〈 见 图 4. 22) 。 单 元 本 身 保 存 的 数据 非常 简单 ， 仅 包括 一 个 存储 电荷 的 
MOS 蝇 体 管 。 随 着 时 间 的 推移 ， 单 元 一 直 在 放电 ， 所 以 几 毫 秒 就 需要 刷新 一 次 。 


CAS 





图 4.22 存储 芯片 示意 图 
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在 大 容量 的 存储 器 中 ， 地 址 的 连 线 数 决定 着 芯片 的 引 脚 数 。 为 了 保护 这 些 引 
脚 ， 也 为 了 获得 更 好 的 全 局 密度 而 提供 一 个 更 小 封装 ， 行 和 列 地 址 复 用 映射 到 这 
些 连 线 (输入 引 脚 )， 这 些 同时 映射 到 片 内 的 内 容 项 。 有 两 个 额外 的 连 线 非常 重 
要 : 行 地 址 控制 器 (Row Address Strobe, RAS) 和 列 地 址 控制 器 (Colum Address 
Strobe，CAS) 。 这 些 控制 门 电路 首先 允许 行 地 址 ， 然 后 运行 列 地 址 进入 芯片 。 行 
和 列 地 址 然后 通过 译 码 来 选择 2” 个 可 能 行 的 一 行 。 行 和 列 的 交叉 部 分 就 是 需要 
的 信息 位 。 在 一 次 读 周期 内 ， 列 线路 信和 号 经 过 感知 放大 器 放大 后 传送 给 输出 引 脚 
(数据 出 口 ，D.,) 。 在 一 次 写 周期 内 ， 通 过 可 写 (Write Enable WE) 信号 使 数据 
输入 (Da) 信号 有 效 ， 从 而 用 来 指定 选择 的 位 地 址 内 容 。 

所 有 的 这 些 行 为 都 以 近似 图 4. 23 所 示 的 时 序 发 生 。 在 存储 器 读 操作 的 一 开 
始 ，RAS 线 就 会 被 激活 。 当 RAS 激活 并 且 CAS 关闭 的 时 候 ， 地 址 线 上 的 信号 会 
被 解释 为 行 地 址 然后 保存 到 行 地 址 寄存 器 。 这 样 可 以 激活 行 解码 器 并 且 选 择 存储 
阵列 里 面 的 行 线路 。 然 后 CAS 激活 ， 让 列 地 址 线路 将 信和 号 输入 到 列 地 址 寄存 器 
中 。 注 意 以 下 一 些 内 容 : 

读 操 作 





地 址 ZN ZN ZN 


RAS —/ 


图 4.23 异步 DRAM 忌 片 时 序 


1. 考虑 到 列 地 址 信号 ，CAS 的 两 次 上 升 时 序 代表 着 信号 的 最 早 和 最 晚 有 效 
时 间 。 
2. WE 信号 在 读 操 作 的 时 候 一 直 处 于 关闭 状态 。 
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然后 列 地 址 译 码 器 选择 一 列 线路 ; 在 行 和 列 的 交叉 部 分 就 是 需要 的 数据 位 。 
在 一 个 读 周期 内 ，WE 信号 一 直 处 于 关闭 (低位 ) 状态 ， 输 出 线路 (Doa) 处 于 
高 阻 状态 直到 被 低位 或 是 高 位 信号 激活 ， 高 位 或 是 低位 依赖 所 有 选择 的 存储 单元 
的 内 容 。 

从 RAS 开始 有 效 到 数据 输出 线路 被 激活 ， 这 段 时 间 值 对 于 存储 模块 的 设计 
非常 重要 。 这 段 时 间 被 称 为 芯片 访问 时 间 tori cccesso 其 他 重要 的 芯片 时 序 参数 是 
存储 芯片 的 周期 时 间 fa wue。 周期 时 间 和 访问 时 间 不 一 样 ， 在 此 时 间 内 ， 被 选择 
的 行 和 列 线路 信号 必须 在 下 一 次 地 址 能 进入 及 重复 读 操 作 之 前 得 到 恢复 。 

异步 DRAM 模块 不 仅 是 由 一 些 存储 芯片 组 成 〈 见 图 4. 24 ) 。 在 一 个 存储 系 
统 中 ,假设 每 个 物理 字 p 位 ， 一 个 模块 中 可 以 存储 2" SF, 位 地 址 进入 到 模块 
并 且 一 般 情况 下 直接 进入 一 个 动态 存储 控制 器 芯片 。 这 个 芯片 ， 与 内 存 时 序 控制 
器 相连 接 ， 提 供 以 下 功能 : 

1. 将 个 地 址 位 多 路 复 用 为 行 或 列 地 址 ， 给 存储 芯片 使 用 。 

2. 正确 的 RAS 和 CAS 信号 在 合适 的 时 间 给 出 。 

3. 提供 存储 系统 的 定时 刷新 。 
pit (数据 ) 





图 4.24 异步 DRAM 存储 模块 示意 图 


因为 动态 存储 控制 器 的 输出 控制 所 有 物理 字 的 p 位 ， 也 就 是 p 个 芯片 ， 所 以 
控制 器 的 输出 也 需要 缓冲 。 当 存储 器 读 操 作 完成 后 ， 数 据 输 出 信号 被 连接 在 存储 
右 的 总 线 驱 动 ， 这 个 总 线 也 是 所 有 存储 模块 输入 /输出 的 接口 。 

DRAM 芯片 中 有 两 个 特点 影响 存储 系统 的 设计 。 那 些 “ 突 发 ”状态 类 型 特 
点 被 称 为 

1. 段 模式 

2. 页 模式 
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这 两 种 技术 都 是 为 了 提高 存储 字 传 送 速 率 。 在 段 模式 下 ， 单 地 址 ( 行 或 列 ) 
被 提供 给 存储 芯片 ，CAS 线 信号 在 重复 切换 。 在 内 部 ， 芯 片 将 这 个 CAS 切换 转 
换 成 列 地 址 低位 模 数 2” 的 级 数 。 这 样 ， 连 续 的 字 可 以 从 存储 芯片 中 被 高 速 地 访 
问 。 例 如 ， 当 w=2， 可 以 访问 4 个 连续 的 低位 地 址 ， 如 下 : 


pelea 
并 且 返 回 到 原始 的 位 地 址 。 

在 页 模式 下 ， 单 独 的 行 会 被 选择 ， 然 后 通过 重复 地 激活 CAS 连 线 〈 类 似 段 
模式 ， 见 图 4. 23) ， 非 连续 的 列 地 址 会 高 速 地 输入 进来 。 通 常情 况 下 ， 这 种 方式 
用 来 填充 缓存 行 。 

由 于 常用 术语 习惯 的 不 同 ， 此 处 段 模式 通常 指 从 一 个 四 字 地 址 边界 开始 访问 
(最 多 ) 四 个 连续 的 字 (一 个 段 ) 224.8 给 出 了 一 些 SoC 处 理 器 存储 设计 ， 包 
含 了 一 些 SoC 处 理 器 存储 大 小 、 位 置 和 类 型 。 最 新 的 DDR SDRAM 和 之 后 的 一 些 
会 在 下 一 部 分 讨论 。 

表 4.8 一 些 SoC 处 理 器 的 存储 设计 


sc ZIT 
Philips Nexperia PNX17000199] 片 外 


4.15.1 SDRAM 和 DDR SDRAM 


DRAM 最 重要 的 技术 提高 是 SDRAM 技术 。 如 前 面 提 到 的 一 样 ， 这 种 方法 ， 
将 访问 DRAM 和 周期 与 总 线 周 期 相同 步 。 

这 种 方式 有 一 系列 巨大 的 优势 。 它 消除 了 分 隔 存储 器 时 钟 芯片 生成 RAS 和 
CAS 信号 的 需要 。 在 总 线 时 钟 上 升 沿 进行 同步 。 同 样 的 ， 通 过 扩展 封装 方式 来 
适应 多 输出 引 脚 ， 有 4、8 和 16 个 引 脚 版 本 ， 这 样 可 以 允许 存储 器 有 更 多 斥 二 的 
模块 。 

下 面 将 注意 力 放 在 总 线 和 存储 总 线 的 接口 上 ， 通 过 利用 不 同 的 数据 线 和 地 址 
线 ， 进 一 步 提高 了 总 线 带宽 。 现 在 ， 当 时 钟 信号 上 升 时 ， 辅 助 时 钟 (complement 
clock) 下 降 。 但 是 在 时 钟 周期 的 中 间 时 ， 时 钟 信号 下 降 ， 补 充 时 钟 上 升 。 这 让 
同步 数据 在 一 个 周期 内 传送 两 次 成 为 可 能 : 当时 钟 信号 处 在 上 升 沿 和 当 辅 助 时 钟 
处 在 上 升 沿 时 进行 传递 。 通 过 使 用 这 种 方法 ， 可 以 将 总 线 的 数据 传输 速率 提高 一 
倍 。 采 用 这 种 方式 的 存储 芯片 就 是 DDR SDRAM ( 见 图 4.25) 。 同 样 的 ， 当 多 个 
列 访 问 同一 行 时 ， 也 可 以 在 选中 一 行 后 ， 让 其 处 于 选中 状态 〈 激 活 的 ) ， 而 不 是 
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对 于 每 次 内 存 访问 只 选择 一 行 和 一 列 ， 如 图 4. 26 所 示 。 





图 4.25 内 部 DDR SDRAM 配置 


址 激活 列 地 址 D, D, D; D, 


人 人 AAAA 








一 个 周期 一 个 周期 
图 4.26 从 DDR SDRAM 读 取 一 行 示意 图 


在 空间 局 部 性 允许 的 情况 下 ， 通 过 消除 行 选 择 延 迟 ， 读 和 写 的 次 数 可 以 增 
多 。 当 然 ， 当 一 个 新 的 行 被 访问 的 时 候 ， 行 激活 时 间 也 必须 加 到 访问 时 间 之 内 。 
多 DRAM 阵列 ， 通 常 为 4 或 是 8， 是 SDRAM 的 又 一 个 技术 提高 。 按 照 芯片 的 设 
计 方 式 ， 用 户 可 以 通过 程序 独立 访问 或 是 顺序 访问 这 些 阵 列 。 在 之 前 的 情况 下 ， 
每 一 个 阵列 可 以 拥有 一 个 独立 的 激活 行 选择 ， 可 以 提供 与 多 个 列 交叉 访问 。 如 果 
这 些 阵 列 被 顺序 访问 ， 阵 列 中 相应 的 行 就 会 被 激活 ， 这 样 可 以 支持 更 长 的 突 发 连 
续 数 据 传输 。 这 种 方式 在 图 形 学 的 应 用 中 尤其 有 用 。 

现代 存储 芯片 时 间 参 数 的 改善 归 因 于 对 总 线 和 芯片 电气 特性 的 认真 关注 。 除 
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了 使 用 不 同 的 信号 〈 最 初 是 数据 信号 ， 现 在 是 所 有 信和 号) 外， 总 线 还 被 设计 成 
带 状 传输 线 。 随 着 DDR3 (与 图 形 双 数据 速率 非常 相关 ) 的 出 现 ， 终 端 被 集成 到 
片上 (而 不 仅 是 在 总 线 的 尾 端 ) ， 并 且 还 需要 特别 的 校准 技术 来 确保 精确 终端 。 

拥有 独立 阵列 支持 交叉 行 访问 的 DDR 芯片 必须 从 这 列 中 获取 输出 一 个 2n 的 数 
据 来 支持 DDR。 因 此 ， 有 四 路 输出 线 的 芯片 必须 有 可 以 读 取 8 位 的 阵列 。DDR2 阵 
列 典 型 的 特点 就 是 读 取 4n， 所 以 当 n =4， 阵 列 应 当 可 以 获取 16 位 。 因 为 每 四 路 总 
线 半 个 周期 阵列 只 被 访问 一 次 ， 所 以 这 使 更 高 的 数据 传输 速率 成 为 可 能 。 

表 4.9 和 表 4. 10 给 出 了 一 些 典型 DRAM 的 参数 。 在 写 这 本 书 的 时 候 ， 这 些 典 
型 的 DRAM 已 经 在 生产 了 ， 而 异步 DRAM 和 SDRAM 作为 遗留 部 分 通常 不 会 用 于 
新 的 开发 。DDR3 部 分 已 经 被 引入 到 图 形 应 用 的 部 分 。 在 大 多 数 情况 下 ， 这 些 参 数 
都 是 典型 并 针对 常用 配置 的 。 例 如 ， 异步 DRAM 有 1、4、 和 16 输出 引 脚 的 配置 。 
DDR SDRAM 有 4、8 和 16 个 输出 引 脚 的 配置 。 也 有 许多 其 他 的 配置 种 类 。 


表 4.9 64 位 模块 下 典型 DRAM 芯片 的 配置 参数 





Se [paw | som | bor | ooe [ ons coor 





多 种 (最 多 4 种 ) DDR2 SDRAM 可 以 配置 使 用 公共 总 线 ( 见 图 4.27)。 在 
这 种 情况 下 ， 当 一 个 芯片 被 激活 后 (如 有 一 个 激活 的 行 )， 片 上 终端 就 不 会 被 使 
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用 。 当 芯片 上 没有 被 激活 的 行 ， 终 端 才 被 使 用 。 典 型 的 服务 器 配置 ， 一 般 有 四 个 
模块 共享 一 个 总 线 〈 通 道 ) ， 一 个 最 多 管理 两 条 总 线 的 内 存 控 制 器 ， 如 图 4. 27 
所 示 。 之 所 以 数量 最 多 为 两 个 的 原因 是 大 量 的 调谐 带 和 微波 传输 线 必须 将 控制 器 
和 总 线 连接 起 来 。 更 高 级 的 技术 是 在 模块 和 非常 高 速 通道 之 间 增 加 一 个 缓冲 器 。 
这 种 高 级 的 通道 拥有 更 小 的 带宽 (如 1 个 字 节 ) 但 是 更 高 的 传输 速率 〈 如 8 售 
速率 ) 。 网 络 的 影响 使 得 每 个 模块 的 带宽 都 一 样 ， 但 是 现在 接 人 控制 器 的 线路 数 
量 已 经 减少 ， 却 能 够 使 控制 器 控制 更 多 的 通道 (如 8 个 )。 


存储 控制 器 





图 4.27 SDRAM 通道 和 控制 器 


4. 15.2 存储 缓冲 器 


在 停止 执行 和 产生 更 多 的 访 存 操作 之 前 ， 处 理 器 只 能 保存 有 限 数量 的 未 处 理 
的 访 存 操作 。 程 序 中 的 逻辑 依赖 或 处 理 器 没有 足够 大 空间 缓冲 未 处 理 的 访 存 操作 
时 就 会 出 现 这 种 情况 。 这 种 情况 会 导致 因为 处 理 过 程 中 的 暂停 ， 使 得 可 用 存储 带 
宽 逐 渐 下 降 ， 因 为 存储 器 能 处 理 的 访 存 操作 和 处 理 器 发 出 请 求 数量 一 样 多 。 

逻辑 依赖 的 情况 包括 分 支 和 地 址 互 锁 。 在 访 存 操作 没有 返回 结果 之 前 ， 程 序 
的 执行 只 能 挂 起 。 

对 于 每 一 个 等 待 处 理 的 访 存 操作 ， 与 之 关联 是 一 些 特定 的 信息 ， 用 于 标注 
请 求 属 性 〈 如 读 或 者 写 操作 ) 、 内 存 地 址 及 足够 的 路 由 信息 用 来 将 请 求 数据 返 
回 给 请 求 者 。 所 有 这 些 信息 必须 被 缓存 起 来 ， 存 储 在 处 理 器 或 者 存储 系统 中 ， 
直到 访 存 请 求 完 成 。 当 缓存 充满 时 ， 后 面 的 请 求 不 会 被 接受 ， 此 时 需要 处 理 器 
暂停 。 

在 交叉 存储 中 ， 访 存 模块 之 间 的 拥塞 情况 通常 都 不 相同 。 多 余 的 访 存 请 求 会 
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发 送 到 相对 空闲 的 模块 中 ， 并 且 会 增 大 网 络 带宽 ， 因 此 尽 可 能 增 大 处 理 器 的 请 求 
是 非常 有 用 的 。 如 果 尽 可 能 增 大 存储 的 带宽 是 主要 目的 的 话 ， 需 要 存储 访 存 请 求 
达到 一 定 的 数量 ， 直 到 程序 中 的 逻辑 依赖 成 为 限制 因素 。 


4.16 处 理 器 -存储 器 交互 简单 模型 


在 一 个 多 处 理 器 或 是 复杂 单 核 处 理 器 系统 中 ， 访 存 请 求 有 可 能 阻塞 存储 系 
统 。 要 么 是 多 个 请 求 同 时 产生 ， 导 致 总 线 和 网 络 拥塞 ;要么 是 不 同 来 源 的 请 求 同 
时 访问 存储 系统 。 那 些 不 能 迅速 被 处 理 的 访 存 请 求 导致 对 存储 器 的 争 用 。 这 种 争 
用 竞争 降低 了 带宽 ， 并 且 有 可 能 使 存储 器 带宽 降低 。 

在 这 种 可 能 最 简单 的 实现 方式 下 ， 一 个 简单 处 理 器 发 出 一 个 访 存 请 求 给 一 个 
单独 的 存储 模块 。 处 理 器 暂停 运行 并 等 待 存储 模块 提供 服务 。 当 模块 有 反馈 时 ， 
处 理 器 恢复 运行 。 在 这 种 实现 方式 下 ， 结 果 可 以 被 完全 预测 。 因 为 在 同一 时 间 只 
有 一 个 访 存 请 求 发 送 给 存储 模块 ， 所 以 不 会 产生 竞争 。 接 下 来 ， 假 设 有 个 简单 
的 处 理 器 访问 m 个 独立 的 模块 。 当 多 处 理 器 访问 相同 的 模块 时 ， 竞 争 就 会 产生 。 
竞争 会 降低 每 个 处 理 器 获得 的 带宽 大 小 。 更 进一步 地 说 ， 例 如， 一 个 配置 为 非 阻 
塞 式 缓存 的 处 理 器 在 同一 个 存储 周期 产生 个 请 求 ， 这 种 情况 类 似 n 个 处 理 器 和 
m 个 模块 的 存储 系统 产生 的 结果 ， 至 少 从 一 个 建 模 的 角度 看 是 这 样 的 。 但 是 在 现 
代 系 统 中 ， 处 理 器 通常 会 对 存储 系统 进行 缓存 。 一 个 处 理 器 是 否 会 在 访问 缓存 的 
时 候 因 为 存储 器 或 者 总 线 竞争 而 降低 速度 ， 取 决 于 缓存 设计 和 分 享 同一 存储 系统 
的 处 理 器 的 服务 率 。 

假设 一 个 有 m 个 模块 的 集合 ， 每 个 模块 的 服务 时 间 为 7.， 访问 时 间 为 也,， 
并 且 给 定 一 个 特定 的 处 理 器 访问 率 ， 那 么 如 何 模拟 从 这 些 存储 模块 中 获得 的 带 
宽 ? 如 何 计算 整体 有 效 访 问 时 间 ? 显而易见 ， 那 些 低 优先 级 插入 的 模块 只 能 是 对 
带宽 大 小 有 帮助 的 模块 ， 因 此 它们 决定 m 值 。 从 存储 系统 的 角度 来 看 ， 只 要 访 
问 的 次 数 统计 值 保持 不 变 ， 无 论 由 个 处 理 器 组 成 的 处 理 器 系统 是 否 每 个 存储 周 
期 产生 一 次 访 存 请 求 ， 或 者 是 一 个 处 理 器 每 个 存储 周期 产生 次 访问 ， 对 结果 的 
影响 都 是 无 关 紧 要 的 。 因 此 ， 对 存储 系统 的 分 析 同 样 适用 于 多 处 理 器 系统 和 超标 
量 处 理 器 。 访 问 速 率 , 每 7. 时 间 内 次 访问 ， 被 称 为 发 起 提交 请 求 率 (Offered 
Request Rate) ， 它 代表 非 缓存 处 理 器 系统 对 主 存 的 峰值 需求 。 


4.16.1 简单 多 处 理 器 和 存储 器 模型 


为 了 设计 一 款 有 用 的 存储 器 模型 ， 就 需要 一 个 处 理 器 模型 。 在 这 里 的 分 析 
中 ， 用 一 个 单 处 理 器 作为 一 个 简单 多 处 理 器 的 模型 。 对 于 每 个 简单 处 理 器 来 说 ， 
当前 面 的 访问 被 满足 后 ， 就 可 以 发 起 另 一 次 访问 请 求 。 在 这 种 模型 下 ， 可 以 改变 
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处 理 器 的 数量 和 存储 模块 的 数量 ， 并 且 保 持 地 址 访 存 /数据 返回 均衡 。 为 了 把 一 
个 单 处 理 器 模型 转化 为 一 个 对 等 的 多 处 理 器 模型 ， 设 计 者 必须 决定 每 个 模块 服务 
时 间 内 向 存储 模块 发 送 的 请 求 数量 ，7. = 了 .。 

一 个 简单 的 处 理 器 发 出 一 个 访 存 请 求 并 等 待 回应 。 一 个 流水 线 处 理 器 会 对 不 
同 的 存储 器 缓冲 区 发 出 请 求 ， 而 不 必 等 待 某 个 访 存 请 求 的 返回 。N 个 简单 处 理 
器 ， 每 个 处 理 器 每 7. 内 发 出 一 条 访 存 请 求 ， 和 一 个 流水 线 处 理 器 每 7, 发 出 nn 个 
请 求 的 值 是 近似 等 同 的 〈 见 图 4.28) 。 

建 模 假设 : 根据 渐 近 线 分 析 , 这 些 是 相等 的 









1 个 处 理 器 
每 个 也 产生 次 请 求 


个 处 理 器 
每 个 了 .产生 一 次 请 求 





”图 4.28 简单 的 处 理 器 等 价 寻找 方法 


在 接 下 来 的 讨论 中 ， 使 用 两 个 符号 来 代表 存储 系统 的 带宽 值 : 

1. 8。 每 7, 时间 内 能 够 响应 的 请 求 数 。 有 时 候 也 会 给 B 加 上 参数 值 ， 如 B 
(m, nn) 或 者 B(m)。 

2. Bw。 每 秒 响应 的 请 求 数量 ，Bw = B/7.。 

为 了 将 这 些 定义 转化 为 基于 缓存 的 系统 ， 响 应 时 间 T, 是 存储 系统 处 理 缓存 
失效 的 时 间 。 存储 模块 的 数量 m， 是 存储 系统 能 够 一 次 同时 处 理 的 缓存 失效 的 次 
数 。n 是 每 个 7, 时间 内 的 所 有 请 求 数量 。 这 是 每 个 处 理 器 7, 内 所 有 失效 次 数 的 
预计 值 乘 以 所 有 处 理 器 发 出 的 请 求 次 数 。 


4.16.2 Strecker-Ravi 模型 


这 是 个 简单 但 有 效 的 竞争 评估 模型 。 最 初 的 模型 是 由 Strecker HB HR”? , 
之 后 由 Ravi 独立 开发 完善 ”1 。 在 此 模型 中 ， 每 个 存储 周期 假设 有 个 简单 处 理 
RVF, HA m 个 存储 模块 。 另外， 假设 不 存在 总 线 竞 争 。Strecker 模型 假 
设 处 理 器 的 访 存 请 求 模式 是 统一 的 ， 每 个 请 求 访 问 某 个 特定 的 存储 模块 的 概率 都 
是 1/m。 最 重要 的 模型 假设 是 存储 系统 在 每 个 周期 的 最 开始 的 状态 是 不 依赖 上 一 
个 行为 的 影响 的 ， 因 此 也 不 依赖 过 去 的 竞争 。 没 有 响应 的 请 求 在 存储 周期 的 最 后 
被 抛弃 。 

以 下 是 模型 中 的 近似 假设 : 
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只 要 上 一 次 请 求 得 到 满足 ， 处 理 器 就 可 以 发 出 另 一 个 请 求 。 
a Ny R 分 配 的 。 也 就 是 说 ， 每 个 请 求 访 问 
一 个 特定 的 存储 模块 的 概率 都 是 1/m。 

3. 存储 系统 在 每 个 存储 周期 的 最 初 状态 是 被 忽略 的 ， 假 设 在 每 个 周期 的 最 
后 会 丢弃 没有 响应 的 请 求 ， 处 理 器 此 时 可 以 随机 地 发 出 新 的 请 求 。 

分 析 

FAB (m, n) 代表 每 个 存储 周期 的 平均 访 存 请 求 ， 相 当 于 每 个 存储 周期 中 
存储 模块 的 “ 忙 ” 状 态 的 平均 数量 。 对 于 给 定 的 模块 ， 每 个 存储 周期 产生 的 事 
件 的 角度 分 析 ， 可 以 得 出 : 

对 于 一 个 处 理 器 来 说 ，Prob (不 会 访问 此 存储 模块 的 概率 ) = (1-1/m), 

Prob( 没 有 处 理 器 访问 这 个 存储 模块 的 概率 ) = Prob (模块 空闲 的 概率 ) 

= (1-1/m) 
Prob( 模块 忙 的 概率 ) =1- (1-1/m )" 

B (m, n) = 忙 模块 的 平均 数量 =m (1- (1-1/m )") 

由 于 竞争 的 原因 ， 能 够 获得 的 存储 带宽 比 理论 的 最 大 值 要 小 。 忽 略 掉 之 前 周 
期 的 阻塞 的 情况 下 ， 这 种 分 析 结 果 能 够 得 到 乐观 的 带宽 值 。 当 然 ， 这 里 使 用 的 仍 
然 是 简单 评估 模型 。 

Bhandarkar“) G AMR, B(m, n) 在 m 和 nn 之 间 是 完美 对 称 的 。 发 现 了 
这 个 事实 后 ， 他 研究 出 更 为 精确 的 B(m，n) 表 达 式 : 

B(m,n) = K[1- (1-1/K )'], 
AF, K=max(m, n); l=min(m, n), 

可 以 使 用 这 个 表达 式 描 述 一 一 类 典型 的 处 理 器 的 整体 。 

例 4.2 

假设 有 一 块 双 处 理 器 的 芯片 系统 ， 使 用 共享 存储 系统 。 每 个 处 理 器 芯片 有 两 
个 核 ， 即 一 共 四 个 核 ， 共 享 一 个 4MB 二 级 缓存 。 每 个 处 理 器 在 一 个 周期 内 发 出 
3 个 访 存 请 求 ， 时 钟 频率 是 4CGHz。 二 级 缓存 中 每 次 访问 的 失效 率 为 0.001。 存 储 
系统 的 平均 7, 为 24ns， 包 括 总 线 延 迟 。 

可 以 根据 包含 原则 ， 忽 略 掉 一 级 缓存 的 细节 。 所 以 ， 每 个 处 理 器 芯片 每 个 周 
期 会 产生 6 x0. 001 存储 器 访问 ， 或 者 每 个 周期 0. 012 个 访问 。 因 为 一 个 7, 时 间 
内 有 4 x24 个 周期 ， 于 是 每 个 7, 时 间 内 有 = 1. 152 个 处 理 器 请 求 。 如 果 设 计 在 
BT, AA m=4 个 请 求 ， 性 能 的 计算 公式 为 

B(m, n) = B(4, 1.152) =0. 81 
相关 的 性 能 为 
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如 此 ， 由 于 存储 系统 的 影响 ， 处 理 器 只 能 获得 70% 潜在 性 能 值 。 为 了 取得 
更 好 的 性 能 ， 需 要 一 个 更 大 的 二 级 缓存 〈 或 三 级 缓存 ) 或 是 一 个 设计 更 精致 的 
存储 系统 (m =8)。 


4.16.3 ”交叉 缓存 


交叉 缓存 的 处 理 方式 可 以 和 交叉 存储 器 的 方式 一 样 。 
例 4.3 
一 个 早期 的 美国 英特尔 公司 的 奔腾 处 理 器 有 8 路 交叉 数据 缓存 。 每 个 处 理 器 
周期 发 出 两 个 访问 请 求 。 缓 存 和 处 理 器 的 周期 时 间 是 一 样 的 。 
对 于 Intel 指令 集 ， 有 
Prob (每 条 指令 的 数据 访问 概率 ) =0. 6. 
因为 奔腾 处 理 器 试图 在 每 个 周期 处 理 两 条 指令 ， 于 是 有 
n=1,2, 
m=8. | 
使 用 Strecker 的 模型 ， 可 以 得 到 
B(m, n) =B(8, 1.2) =1. 18 
相应 的 性 能 为 


也 就 是 说 ， 由 于 访 存 竞 争 的 原因 ， 处 理 器 性 能 降低 了 2% 。 
4.17 总 结 


缓存 为 处 理 器 提供 了 一 个 比 单纯 的 存储 器 访问 更 加 快速 的 访 存 方式 。 因 此 ， 
缓存 成 为 了 现代 处 理 器 的 重要 组 成 部 分 。 缓 存 失 效率 大 部 分 是 由 缓存 的 大 小 决 
E, 但 是 ,任何 评估 缓存 失效 率 的 方法 都 必须 将 缓存 的 组 织 形式 、 操 作 系 统 、 系 
统 环 境 、LO 等 因素 考虑 在 内 。 由 于 缓存 的 访问 时 间 受 到 其 大 小 的 限制 ， 多 级 组 
存 成 为 了 片上 处 理 器 设计 的 共同 特征 。 

片上 存储 设计 看 起 来 是 相对 容易 实现 ， 尤 其 随 着 eDRAM 的 出 现 ， 但 是 片 外 
存储 设计 却 是 非常 困难 的 问题 。 首 要 的 客观 因素 是 容量 ; 然而 ， 大 的 存储 容量 和 
引 脚 的 限制 意味 着 比较 慢 的 访 存 速度 。 即 使 芯片 访问 非常 迅速 ， 系 统 的 整体 开 
销 ， 包 括 总 线 信号 传输 、 错 误 检查 及 地 址 分 配 ， 都 会 增 大 延迟 。 

确实 ， 这 些 开 销 延 迟 的 增长 相应 地 降低 了 机 器 周期 数 。 面 对 着 上 百 的 访 存 周 
期 ， 设 计 者 可 以 使 用 大 的 多 级 缓存 来 提供 足够 的 存储 带宽 来 匹配 处 理 器 的 访 
问 率 。 
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4.18 习题 


.1. 一 个 128KB 的 缓存 ， 行 大 小 为 64 位 ， 物 理 字 大 小 8 位 ，4KB 个 页 ， 四 路 
组 相 联 。 使 用 CB st 〈 写 时 分 配 ) 和 LRU 替换 策略 。 处 理 器 生成 30 位 (一 个 字 
节 的 地 址 ) 的 虚拟 地 址 ， 转 换 成 24 位 (一 个 字 节 的 地 址 ) 的 实 字 节 地 址 (标识 
位 Ao ~ Ax; , 从 低位 到 高 位 ) o 

(a) 哪些 地 址 位 不 受 地 址 转换 的 影响 (V=R)? 

(b) 哪些 地 址 位 用 来 寻 址 缓存 目录 ? 

(c) 哪些 地 址 位 用 来 和 缓存 目录 中 的 项 进行 对 比 ? 

(d) 哪些 地 址 位 添加 到 (b) 中 的 地 址 位 中 来 寻 址 缓存 阵列 ? 

2. 针对 习题 1 画 出 缓存 的 层级 关系 图 ， 详 细 程 度 如 图 4.5 ~ 图 4.7 所 示 。 

3. 为 DTMR 缓存 (CBWA, LRU) 设计 ( 字 节 大 小 ) 计算 行 大 小 的 计算 
公式 : 

(a) 4KB 缓存 

(b) 32KB 缓存 

(c) 256KB 缓存 

4. 假设 将 失效 率 定 为 某 个 值 。 在 这 个 值 上 ，CB 式 缓存 (CBWA) 5 WTR 
缓存 (WINWA) 具有 相同 的 访问 量 。 那 么 称 这 个 值 为 跨越 点 。 

(a) 对 于 DTMR 缓存 ， 找 到 16B、32B 和 64B 行 的 跨越 点 (失效 率 )。 缓 存 
大 小 为 多 少时 ， 这 些 值 会 一 致 ? 

(b) 设计 行 大 小 对 应 缓存 大 小 的 跨越 点 。 l 

5. 习题 1 中 的 缓存 在 事务 环境 中 使 用 16B 大 小 的 行 (@ =20000)。 

(a) 计算 有 效 的 失效 率 。 

(b) 近似 计算 ， 最 佳 的 缓存 大 小 〈 最 小 的 缓存 大 小 产生 的 最 低 可 获得 失效 
率 )? 

6. 在 一 个 两 级 的 缓存 系统 中 ， 有 

© 一 级 缓存 大 小 为 8KB， 四 路 组 相 联 , 行 大 小 为 16B，WT 策略 ( 写 时 不 分 
配 空间 )。 

© 二 级 缓存 大 小 为 64KB ， 直 接 映射 ， 行 大 小 为 64B，CB， 式 〈 写 时 分 配 空 
间 ) 。 

假设 一 级 缓存 失效 ， 在 二 级 缓存 中 命中 延迟 为 3 个 周期 ; 一 级 缓存 失效 ， 在 
二 级 缓存 中 也 失效 的 延迟 是 10 个 周期 。 处 理 器 访 存 频率 为 1. 5 次 每 条 指令 。 

(a) 一 级 缓存 和 二 级 缓存 的 失效 率 为 多 少 ? 

(b) 由 于 缓存 失效 ，CPI 降低 多 少 ? 
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(c) 一 级 缓存 中 的 所 有 行 在 二 级 缓存 中 都 能 找到 吗 ? ATA? 

7. 一 个 特定 的 处 理 器 ， 有 两 级 缓存 。 一 级 缓存 是 4KB 直接 映射 ，WTNWA。 
二 级 缓存 是 8KB 直接 映射 ，CBWA。 两 者 都 有 16B 大 小 的 行 ， 使 用 LRU SR 
策略 。 

(a) 二 级 缓存 能 够 包含 所 有 的 一 级 缓存 行 吗 ? 

(b) 如 果 二 级 缓存 是 SKB 的 四 路 组 相 联 (CBWA) ， 二 级 缓存 包含 所 有 的 一 
级 缓存 行 吗 ? 

(c) 如 果 一 级 缓存 是 四 路 组 相 联 映射 (CBWA) 并 且 二 级 缓存 是 直接 相连 ， 
二 级 缓存 包含 所 有 的 一 级 缓存 行 吗 ? 

8. 假设 有 如 下 的 参数 设置 ， 一 级 缓存 大 小 为 4KB ， 二 级 缓存 大 小 为 64KB 。 

缓存 失效 率 为 


4KB 每 次 访问 0. 10 次 失效 
64KB 每 次 访问 0. 02 次 失效 
1 次 访问 /指令 
”3 周期 一 级 缓存 失效 ， 二 级 缓存 命中 
10 周期 一 级 缓存 失效 和 二 级 缓存 失效 总 时 间 


由 于 缓存 失效 而 导致 的 额外 的 CPI 多 少 ? 

9. 一 个 特殊 的 处 理 器 使 用 32 位 虚拟 地 址 。 地 址 空间 为 分 段 和 分 页 ， 每 个 段 
最 大 为 1 MB， 每 个 页 为 512B。 在 缓存 中 读 写 交 换 的 物理 字 为 4B。 

使 用 TLB， 组 织 形式 为 组 相 联 ，128 x2。 如 果 地 址 位 标识 位 Vo ~ Vs, 为 虚拟 
地 址 ， Ro ~ 及 为 实地 址 ， 从 低地 址 到 高 地 址 。 

(a) 哪些 位 不 受 地 址 转换 的 影响 (CONV, =R)? 

(b) 如 果 TLB 使 用 地 址 的 低位 部 分 进行 转换 〈 非 哈 希 ) ， 哪 些 地 址 位 用 来 
寻 址 TLB? 

(c) 哪些 虚拟 位 用 来 对 比 TLB 中 的 虚拟 项 来 决定 一 个 TLB 命中 是 否 存 在 ? 

(d) 在 最 小 的 情况 下 ， 哪 些 实地 址 位 是 由 TLB 提供 ? 

10. 对 于 一 个 16KB 的 集成 一 级 缓存 (直接 映射 ，16B TK) 及 一 个 
128KB 的 集成 二 级 缓存 (两 路 组 相 联 ，16B 行 大 小 ) ， 找 出 二 级 缓存 的 单独 和 局 
部 失效 率 。 

11. 一 个 特殊 的 芯片 有 16KB 大 小 的 指令 缓存 和 16KB 大 小 的 数据 缓存 ， 都 
是 直接 映射 。 处 理 器 有 32 位 虚拟 地 址 ， 实 地 址 为 26 位 ， 使 用 4KB 大 小 页 。 指 
令 访问 频率 为 1.0 次 每 条 指令 ; 数据 访问 为 0.5 次 每 条 指令 。 缓 存 失 效 延 迟 为 
10 个 周期 ， 加 上 1 个 周期 的 4B 行 转换 延迟 。 整 个 行 写 到 缓存 之 前 ， 处 理 器 处 于 
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阻塞 状态 。D 缓存 是 CBWA AY; 使 用 脏 行 率 为 w =0.5。 对 于 两 个 缓存 来 说 , 行 
大 小 为 64B。 

(a) 由 于 指令 缓存 失效 造成 的 CPI 降低 和 由 于 数据 缓存 失效 造成 的 CPI 降 
低 为 多 少 ? 

(b) 对 于 64B 大 小 行 来 说 ， 找 出 指令 缓存 和 数据 缓存 目录 字 节 大 小 和 相应 
的 映射 区 域 。 

12. 找 出 两 个 最 新 的 DDR3 设备 的 例子 ， 针 对 这 些 设备 ,更 新 表 4.9 和 表 4. 10 
所 示 的 数据 。 

13. 列 出 TLB 失效 之 后 必须 执行 的 所 有 的 操作 信和 号。 设计 者 该 如 何 降低 TLB 
失效 造成 的 延迟 呢 ? 

14. 在 例 4. 2 中 ， 假 设 需要 相对 性 能 为 0.8。 通 过 mm =8 时 交叉 操作 可 以 获得 
吗 ? 

15. 更 新 表 4. 3 所 示 的 基于 NAND 闪存 的 时 序 参数 。 

16. 对 目前 的 商用 闪存 (NAND 和 NOR) 和 当前 eDRAM 的 特点 做 比较 。 


5.1 引言 


SoC 设计 一 般 包 括 P 核 的 综合 ， 其 中 每 一 个 IP 核 都 是 被 独立 设计 和 验证 的 。 
系统 综合 人 员 通 过 最 大 限度 地 估计 设计 可 重用 性 ， 来 减少 开销 并 降低 风险 。SoC 
综合 人 员 经 常 遇 到 的 问题 是 IP 核 的 互联 方法 。 

可 供 选 择 SoC 互联 方式 远 远 多 于 传统 计算 机 的 总 线 。 首 先 给 出 SoC 互联 结构 
的 概述 : 总 线 和 片上 网 络 (Network on Chip，NoC)。 为 SoC 专门 设计 的 总 线 结 
构 将 在 下 面 介 绍 和 比较 。 相 对 于 基于 总 线 的 互联 网 络 ， 基 于 交换 的 互联 网 络 具有 
更 多 的 选择 性 。 这 里 将 不 会 考虑 点 对 点 的 或 者 全 部 自制 的 交换 互联 网 络 ， 这 些 互 
联网 络 不 适用 于 多 样 的 耳 核 。 在 SoC 互联 中 使 用 的 基于 交换 的 互联 网 络 被 称 作 
NoC 技术 。 

一 个 NoC 通常 包括 一 个 表层 的 抽象 描述 ， 向 设计 者 隐藏 了 底层 的 物理 互联 。 
那么 依照 当前 SoC 的 惯例 ， 将 互联 看 做 是 总 线 或 者 基于 交换 的 NoC。 在 NoC 中 ， 
交换 可 以 被 看 成 是 一 个 交叉 开关 ， 一 个 直接 连接 的 互联 ， 或 者 一 个 多 级 交换 
网 络 。 

有 大 量 的 关于 总 线 和 计算 机 互联 的 文献 。 被 连接 在 一 起 的 单元 有 时 被 称 作 代 
理 (在 总 线 中 ) 或 者 节点 (在 一 般 的 互联 文献 中 ); 本 书简 单 地 使 用 “单元 ” 
一 词 。 由 于 当前 SoC 互联 通常 包含 适当 数量 的 单元 ， 本 章 给 出 了 互联 选择 的 一 个 
简化 表示 。 对 于 片上 通信 结构 更 深入 的 解释 可 以 参见 本 书 参 考 文献 [191]。 对 
于 计算 机 互联 网 络 的 一 般 性 讨论 ， 请 看 本 书 参考 文献 [60，77]。 


5.2 概述 : 互联 结构 


图 5. 1 给 出 了 在 系统 环境 下 一 个 SoC 模块 的 系统 框图 。 这 个 典型 的 SoC 模块 
包含 了 一 些 IP 核 、 一 个 或 者 多 个 处 理 器 。 另 外 ， 各 种 类 型 的 片上 内 存 充 当 了 高 
速 缓存 ， 数 据 存储 和 指令 存储 。 其 他 集成 在 SoC 中 的 IP 核 提供 处 理 特定 应 用 的 
功能 ， 如 图 形 处 理 器 、 视 频 处 理 器 和 网 络 控制 单元 。 
什么 是 NoC? 

按照 SoC 技术 的 发 展 ， 看 起 来 仅 有 两 种 互联 的 策略 : 总 线 和 NoC。 那 么 ， 什 
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片 外 外 围 设 备 


图 5.1 在 系统 环境 下 一 个 SoC 模块 框图 





么 是 真正 的 NoC? Nurmi 教授 (在 Leibson 21 的 报告 中 提 到 ) 总 结 了 NoC 的 以 下 
特点 : 

1. NoC 不 仅 是 一 个 单一 的 共享 的 总 线 。 

2. NoC 为 任何 通过 纵横 开关 或 者 节点 交换 连接 在 网 络 中 的 两 个 主 单元 提供 点 
对 点 的 连接 。 

3. NoC 通过 并 行 连接 提供 高 聚集 带宽 。 

4. 在 NoC 中 ， 通 信和 计算 是 分 开 的 。 

5. NoC 使 用 层次 化 的 通信 方式 ， 即 使 它 由 于 复杂 和 昂贵 而 只 有 少量 的 网 络 
层次 。 
6. NoC 支持 管道 通信 并 为 发 送 端 和 接收 端 之 间 的 立即 数据 提供 缓冲 。 

在 SoC 的 环境 下 , 设计 者 发 现 总 线 技术 不 能 提供 足够 的 带宽 和 连接 性 ， 互 联 
的 选择 明显 是 一 些 交 换 开 关 。 任 何 被 很 好 设计 的 交换 互联 可 以 满足 特点 2、3、4 
和 6。 点 对 点 的 交换 互联 不 满足 特点 5， 它 的 处 理 器 节点 和 交换 互联 被 特别 设计 
的 接口 所 连接 。 但 是 在 SoC 中 ,各 种 IP 供应 商 的 点 对 点 互联 几乎 不 是 这 样 的 。 
设计 者 会 选择 一 个 与 处 理 器 节点 分 离 的 常用 的 通信 接口 ( 层 )。 

SoC 模块 中 的 IP 核 之 间 需 要 互相 通信 。 它 们 通过 互联 接口 单元 (Interconnect 
interface Unit , ICU) 来 实现 通信 。ICU 为 所 有 的 SoC 模块 使 用 一 个 共同 的 接口 
协议 。 
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SoC 模块 的 外 部 是 片 外 内 存 、 片 外 外 围 设备 和 大 量 存储 设备 。 因 此 ， 系 统 的 
开销 和 性 能 取决 于 片 内 和 片 外 的 互联 结构 。 

选择 一 个 合适 的 互联 结构 需要 理解 以 下 一 系列 的 系统 级 问题 和 说 明 : 

1. 通信 带宽 ， 信 息 在 一 个 模块 和 它 所 操作 的 周围 环境 之 间 的 传播 速率 。 带 
宽 用 B/s 来 衡量 ， 通 常 一 个 模块 的 带宽 需求 需要 扩大 互联 的 类 型 ， 从 而 实现 系统 
的 总 吞吐 量 的 规格 。 

2. 通信 延迟 ， 一 个 模块 从 需要 数据 到 接收 到 数据 反馈 的 时 间 延 迟 。 延 迟 对 
整个 系统 的 性 能 来 说 ， 也 许 不 是 很 重要 。 例 如 ， 在 视频 流 应 用 中 的 长 延迟 通常 对 
观看 者 的 体验 没有 或 者 有 少量 的 影响 。 看 一 部 电影 时 ， 会 比 播放 延迟 几 秒 ， 但 这 
没有 影响 。 相 反 ， 在 移动 通信 协议 中 ， 即 使 小 的 ， 不 曾 预 料 的 延迟 也 会 造成 交流 
的 困难 。 

3. 主 设备 和 从 设备 。 这 两 个 词语 关心 的 是 一 个 单元 是 否 可 以 初始 化 或 对 通 
信 请 求 作出 反应 。 一 个 主 设备 控制 自己 和 其 他 模块 之 间 的 事务 ， 如 处 理 器 。 一 个 
从 设备 ， 对 来 自主 设备 的 请 求 作出 回应 ， 如 内 存单 元 。 一 个 Soc 的 设计 通常 包含 
几 个 主 设备 和 大 量 的 从 设备 。 

4. 并 行 需求 。 独 立 的 同时 发 生 的 通信 通道 的 数量 。 通 常 ， 额 外 的 通道 可 以 
提高 系统 的 带宽 。 

5. 信息 包 和 总 线 事务 ， 在 单一 事务 中 的 信息 传播 大 小 和 定义 。 对 于 总 线 来 
说 ， 由 控制 位 〈 读 / 写 等 ) 的 地 址 和 数据 组 成 。 在 NoC 中 ， 这 个 信息 被 称 作 信息 
包 。 信 息 包 由 头 部 (地 址 和 控制 ) 和 数据 (有 时 被 称 作 负载 ) 组 成 。 

6. ICU。 在 一 个 互联 中 ， 这 个 单元 管理 互联 的 协议 和 物理 事务 。 它 可 以 是 简 
单 的 ， 也 可 以 是 复杂 的 。 它 能 够 支持 乱 序 的 事务 缓冲 和 管理 。 如 果 IP 核 需要 一 
个 传输 协议 去 访问 总 线 ， 这 个 单元 被 称 作 总 线 封 装 。 在 NoC 中 ， 这 个 单元 管理 
信息 包 从 IP 核 传输 到 交换 网 络 的 协议 。 它 提供 包 缓 冲 和 乱 序 事务 传送 。 

7. 多 时 钟 域 。 不 同 的 IP 模块 可 能 在 不 同 的 时 钟 与 数据 速率 下 运转 。 例 如 ， 
一 个 视频 摄像 机 捕获 像素 数据 的 速率 由 视频 标准 决定 ， 而 它 的 处 理 器 的 时 钟 速率 
通常 由 工艺 和 结构 设计 决定 。 因 此 ， 在 SoC 中 的 IP 核 常 常 需要 在 不 同 的 时 钟 频 
率 下 工作 ， 从 而 产生 了 分 离 的 时 间 区 域 ， 称 作 时 钟 域 。 如 果 设 计 不 小 心 ， 路 时钟 
域 会 造成 死 锁 和 同步 问题 。 

给 定 一 系列 通信 规则 ， 设 计 者 可 以 探索 不 同 互联 结构 中 带宽 、 延 时 、 并 行 性 
和 时 钟 域 需求 的 不 同 ， 如 总 线 和 NoC。 表 5. 1 给 出 了 一 些 互联 结构 的 实例 。 其 他 
实例 还 包括 Altera FPGA 中 的 Avalon 总 线 '"1， 用 于 开源 核心 和 平台 的 Wishbone 
互联 31， 以 及 FPGA 应 用 中 的 AXI4-Stream 接口 协议 中] 。 

为 SoC 设计 互联 结构 需要 仔细 考虑 许多 需求 ， 如 上 面 列 出 的 内 容 。 本 章 的 剩 
余 内 容 给 出 了 两 种 互联 结构 的 介绍 : 总 线 和 NoC。 
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表 5.1 一 些 互联 结构 的 实例 7) 


CAMBA 3) [Corecor 








100 -400 MHz | 300MHz 
最 大 带宽 /( GB/s) 
最 小 延迟 /ns 2.5° 


* 在 ARM PL330 的 高 速 控制 器 中 实现 。 


5.3 总 线 : 基本 结构 


计算 机 系统 的 性 能 很 大 程度 上 依赖 它 的 互联 结构 的 特点 。 一 个 不 好 的 系统 总 
线 设计 可 以 截断 指令 和 数据 在 内 存 和 处 理 器 之 间 的 传输 ， 或 者 在 外 围 设备 和 内 存 
之 间 的 传输 。 这 个 通信 瓶颈 被 许多 微 处 理 器 和 系统 制造 商 关 注 ， 在 过 去 的 30 年 
里 ， 它 们 采用 了 许多 总 线 标 准 。 这 些 标准 包括 最 流行 的 VME 总 线 和 Intel Multi- 
bus-I。 对 于 板 上 系统 和 个 人 计算 机 ， 总 线 的 发 展 包括 指令 集结 构 总 线 (nstruc- 
tion Set Architecture, ISA), EISA 总 线 和 现在 的 流行 的 PCI 和 PCI Express 总 线 。 
所 有 这 些 总 线 标准 被 设计 用 于 在 印 制 电路 板 (Printed Circuit Board, PCB) 上 或 
者 在 板 上 系统 的 PCB 上 连接 集成 电路 (Integrate Circuit, IC), 

虽然 这 些 总 线 标准 用 于 计算 通信 很 好 ， 它 们 对 于 SoC 技术 却 不 是 非常 适用 。 
例如 ， 所 有 这 些 系统 级 总 线 被 设计 成 驱动 一 个 底板 ， 或 者 在 机 架 系统 或 者 在 一 个 
计算 机 的 主板 上 。 这 就 在 总 线 结构 上 强加 了 很 多 限制 。 首 先 ， 可 用 信号 的 数量 通 
常 被 IC 上 有 限 的 引 脚 和 PCB 连接 器 上 引 脚 的 数量 所 限制 。 向 一 个 IC 包 中 添加 
额外 的 引 脚 或 者 连接 器 开销 昂贵 。 再 者 ， 总 线 的 工作 速度 常 被 总 线 信 号 的 高 负载 
容量 、 连 接 器 的 接触 电阻 和 快速 交换 信号 到 达 PCB 所 带 来 的 电磁 干扰 所 限制 。 
最 后 ， 片 上 总 线 的 驱动 需要 更 小 ， 以 节约 面积 和 功 耗 。 

在 详细 描述 总 线 操作 和 总 线 结构 之 前 ， 表 5. 2 给 出 了 两 种 互联 结构 的 比较 ， 
显示 了 在 一 个 典型 总 线 从 设备 上 的 大 小 和 速度 。 

R52 两 种 互联 结构 的 比较 








标 准 速率 /MHz 面积 /rbe* 
AMBA (依据 实现 方式 ) 166 ~400 175 000 
CoreConnect 66, 133, 183 160 000 


* the 为 寄存 器 等 效 位 ; 评估 是 大 概 的 ， 不 同 的 实现 结果 不 同 。 
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5.3.1 仲裁 和 协议 


概念 上 ， 总 线 仅 是 被 多 个 单元 共享 的 线路 。 实 际 上 ， 必 须 提供 一 些 逻辑 以 合 
总 线 可 以 被 有 秩序 地 使 用 ; 否则， 两 个 单元 可 能 同时 发 送信 号 ， 从 而 造成 冲突 。 
当 一 个 单元 独占 总 线 时 ， 这 个 单元 称 为 拥有 这 个 总 线 。 单 元 可 以 是 潜在 的 主 单 
T, 它 可 以 要 求 对 总 线 的 拥有 权 ; 也 可 以 是 从 单元 ， 它 是 被 动 的 ， 仅 可 以 对 请 求 
作出 回应 。 一 个 总 线 主 设备 是 这 样 一 种 单元 ， 它 初始 化 计算 机 总 线 的 通信 或 者 输 
入/ 输出 (1/0) 通路 。 在 SoC 中 ， 一 个 总 线 主 设备 是 一 个 片上 组 件 ， 如 处 理 器 。 
其 他 单元 连接 到 片上 总 线 ， 如 1/0 设备 和 内 存 组 件 ， 它 们 被 称 作 “ 从 设备 ”。 总 
线 主 设备 利用 规定 的 从 设备 地 址 控制 总 线 通路 和 信号 。 再 者 ， 总 线 主 设 备 也 控制 
主 设备 和 从 设备 之 间 的 数据 流 信号 。 

一 个 叫做 仲裁 的 部 件 决定 了 总 线 的 归属 。 一 个 简单 的 实现 是 集中 式 的 仲裁 音 
元 ， 它 接收 来 自 每 一 个 潜在 的 请 求 单元 的 输入 。 通 过 总 线 协议 ， 仲 裁 单元 将 总 线 
占有 权 授予 其 中 一 个 请 求 单元 。 

总 线 协议 是 一 系列 经 过 协定 的 用 于 在 两 个 或 多 个 设备 通过 总 线 传输 信息 的 规 
则 。 协 议决 定 了 下 面 的 内 容 : 

。 待 发 送 数据 的 类 型 和 顺序 ; 

。 发 送 设备 是 如 何 知道 它 已 经 完成 了 信息 的 发 送 ; 

。 数据 的 压缩 方式 ， 如 果 有 的 话 ; 

。 接收 设备 如 何 反馈 来 表明 已 经 成 功 接收 到 信息 ; 

。 仲裁 如 何 解决 总 线 的 竞争 ， 按 什么 优先 级 解决 ， 以 及 错误 检测 的 类 型 使 用 。 


5.3.2 总 线 桥 


总 线 桥 是 连接 两 个 总 线 的 模块 ， 这 两 个 总 线 可 以 是 不 同类 型 的 。 一 个 典型 的 
总 线 桥 有 如 下 三 个 功能 : 

1. 如 果 两 个 总 线 使 用 不 同 的 协议 ， 总 线 桥 提 供 必 需 的 格式 和 标准 的 交换 。 

2. 总 线 桥 在 两 个 总 线 之 间 插 和 人 入， 从 而 分 割 两 个 总 线 ， 保 证 信息 运输 在 总 线 
片段 中 进行 。 这 样 就 提高 了 并 发 性 : 两 个 总 线 可 以 同时 工作 。 
。 3. 总 线 桥 常 包含 内 存 缓冲 区 和 相关 联 的 控制 电路 ， 从 而 允许 写 置 人 。 当 一 
个 总 线 上 的 主 设备 初始 化 数据 并 通过 总 线 桥 向 另 一 个 总 线 上 的 从 设备 传输 数据 
时 ， 这 个 数据 会 暂 存 在 缓冲 区 ; 从 而 允许 数据 还 未 真正 写 人 到 从 设备 的 情况 下 ， 
主 设备 能 够 继续 执行 下 一 个 事务 。 通 过 允许 事务 的 快速 完成 ， 总 线 桥 能 够 显著 提 
高 系统 的 性 能 。 


5.3.3 物理 总 线 结 构 
总 线 事务 的 特点 取决 于 物理 总 线 的 结构 (线路 通路 的 数量 、 时 钟 周 期 等 ) 
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和 协议 〈 特 别 是 仲裁 的 支持 ) 。 在 任何 给 定 的 周期 内 ， 多 个 总 线 的 使 用 者 必须 通 
过 仲裁 来 访问 总 线 。 因 此 ， 仲 裁 是 总 线 事务 的 一 部 分 。 简 单 仲裁 有 一 个 请 求 周 
期 ， 在 这 个 周期 中 ， 来自 不 同 使 用 者 的 信号 将 被 划分 优先 级 别 ; 紧 接 着 是 一 个 反 
馈 接 收 周期 ， 在 这 个 周期 中 使 用 者 将 被 选择 。 更 复杂 的 仲裁 器 加 入 了 总 线 控制 线 
和 相应 的 逻辑 ， 从 而 每 一 个 使 用 者 会 知道 即将 到 来 的 总 线 状态 和 优先 级 。 在 这 种 
设计 中 ,没有 用 于 仲裁 的 周期 被 加 入 到 总 线 事务 中 。 


5.3.4 总 线 多 样 性 


总 线 可 以 是 统一 的 ， 也 可 以 是 分 离 的 (地 址 和 数据 ) 。 在 统一 的 总 线 中 ， 地 
址 首先 在 一 个 周期 中 被 传送 ， 紧 接着 是 一 个 或 多 个 数据 周期 ; 分 离 总 线 有 分 开 的 
总 线 完成 这 些 功 能 。 

另外 ， 总 线 可 能 是 单一 事务 的 或 者 是 被 占用 的 。 被 占用 的 总 线 仅 在 相应 的 地 
址 或 数据 周期 被 事务 占据 。 这 种 总 线 有 一 个 单元 接收 器 ， 可 以 缓冲 信息 并 产生 分 
离 的 地 址 和 数据 事务 。 

例 5.1 总 线 实例 

通过 组 合 不 同 的 物理 总 线 宽度 和 仲裁 协议 ， 可 能 产生 许多 总 线 设计 方法 。 下 
面 列 出 的 实例 具有 显著 的 可 能 性 。 假 设 总 线 有 1 个 处 理 器 周期 的 传输 延迟 ， 内 存 
(或 者 共享 缓存 ) 在 初始 化 地 址 后 有 4 个 周期 的 访 存 延 迟 ， 并 且 每 一 次 连续 的 数 
据 访 存 都 需要 额外 的 周期 。 每 一 次 能 够 访问 内 存 4 个 字 节 。 待 传输 的 数据 由 16 
位 的 缓存 行 组 成 。 地 址 为 4 个 字 节 。 


表示 访问 剩余 字 所 需 的 时 间 。 另 外 ， 最 后 一 个 字 节 的 数据 在 这 个 时 间 模 板 的 末尾 
到 达 ， 并 且 它 只 能 在 这 个 时 间 点 后 被 使 用 。 

(a) 简单 总 线 。 这 是 一 个 单一 事务 总 线 ， 具 有 简单 的 请 求 /反馈 收 到 (ack) 
仲裁 。 它 有 4 个 字 节 的 物理 位 宽 。 请 求 和 反馈 信号 是 分 离 的 ， 但 是 呈现 为 总 线 事 
务 的 两 个 部 分 ， 因 此 总 线 事务 的 延迟 是 11 个 周期 。 第 一 个 字 在 Te. 的 最 后 一 个 
周期 从 内 存 发 送 ， 而 第 四 个 〈 和 最 后 一 个 ) 字 在 Ti seocss 的 最 后 一 个 周期 从 内 存 
发 送 。 最 后 一 个 总 线 周 期 用 于 重 置 仲裁 器 。 


şi 
| 


Fd 


è 
| i 如 | 
Taccess | Line access LS 


Te 
Ties, 
ĉo, A 


(b) 有 仲裁 支持 的 总 线 。 这 个 总 线 有 一 个 更 加 复杂 的 仲裁 器 ， 但 是 仍旧 有 4 
个 字 节 的 物理 位 宽 和 集成 的 地 址 和 数据 。 对 于 将 地 址 从 总 线 缓冲 器 发 送 到 内 存 ， 
这 个 总 线 有 一 个 额外 的 访问 周期 (5 个 周期 替代 4 个 ) 。 这 没有 在 实例 (a) 中 
显示 出 来 ， 因 为 简单 的 总 线 常常 比较 慢 ， 就 直接 将 地 址 送 入 到 内 存 中 了 。 现 在 请 
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求 和 反馈 的 初始 化 在 总 线 处 理 中 是 重 肆 的 ， 并 且 最 后 用 于 重 置 仲裁 器 的 周期 没有 
在 本 例 的 图 中 出 现 ， 因 此 ， 总 线 事务 现在 开销 10 个 周期 。 

i Je ! Line access 

(c) 独占 的 分 离 总 线 ，4 字 节 位 宽 。 有 如 下 假设 : 数据 从 请 求 线 到 缓冲 器 需 

要 5 个 周期 ， 然 后 传输 需要 4 个 周期 。 事 务 延 迟 同 实例 (b) 一 样 为 10 个 周期 ， 
其 中 包含 了 地 址 传输 的 周期 ， 事 务 占据 总 线 的 时 间 少 于 延迟 的 一 半 (4 个 周期 ) 。 
地 址 总 线 只 使 用 了 10 个 周期 中 的 1 个 。 剩 余 的 时 间 被 用 于 其 他 不 相关 的 事务 ， 
以 提高 通信 的 性 能 。 

地 址 总 线 | 

数据 总 线 | 5 个 周期 总 线 传输 一 一 


(d) 独占 的 分 离 ，16 个 字 节 位 宽 ，1 个 周期 总 线 事务 时 间 。 在 实例 (e) 
中 ， 事 务 的 延迟 为 10 个 周期 。 因 为 内 存 显然 限制 着 系统 ， 在 这 个 实例 中 ， 在 一 
个 周期 内 传输 数据 之 前 ， 内 存 获 取 整 个 16 个 字 节 的 缓存 行 。 地 址 总 线 和 数据 总 
线 在 一 个 事务 中 仅 被 使 用 1 个 周期 。 需 要 指出 的 是 ,实例 (d) 允许 一 个 额外 的 
周期 来 重新 访问 总 线 ， 尽 管 这 可 能 不 是 必须 的 ， 并 且 在 实例 (ce) 中 没有 出 现 。 
地 址 总 线 H | 








| H 
数据 总 线 一 一 一 一 一 一 一 ?个 周期 
实例 (c) 和 (d) 很 有 趣 ， 因 为 总 线 的 位 宽 超 过 了 内 存 的 位 宽 ; 例如 在 
实例 (d) 中 ， 内 存在 7 个 周期 中 是 繁忙 的 (4 个 周期 用 于 访问 第 一 个 字 ，3 
个 周期 用 于 访问 剩余 的 字 ) ， 但 是 总 线 只 在 1 个 周期 中 是 繁忙 的 。 在 这 两 个 实 
例 中 ， 总 线 -内 存 的 这 种 状况 是 由 内 存 的 限制 造成 的 ， 这 就 是 竞争 产生 的 地 方 。 


5.4 SoC 总 线 标准 


两 种 常用 的 SoC 总 线 标准 是 ARM 开发 的 高 级 微 控制 总 线 结 构 (Advanced 
` Microcontroller Bus Architecture, AMBA) 和 美国 IBM 公司 开发 的 CoreConnect 总 
线 。 后 者 在 美国 Xilinx 公司 的 Virtex 平台 的 FPGA 系列 中 采用 。 


5.4.1 AMBA 总 线 


AMBA 总 线 在 1997 年 面世 ， 最 初 源 自 ARM 处 理 器 ， 它 是 工业 界 SoC 处 理 器 
中 最 为 成 功 的 一 个 。AMBA 总 线 基于 传统 的 总 线 结构 ， 包 含 两 个 层次 。 在 AMBA 
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总 线 规定 :所 中 有 以 下 两 种 总 线 定义 : 

e 高 级 高 效 总 线 (Advanced High . performance Bus, AHB) 被 设计 用 于 连 
接骨 入 式 的 处 理 器 ， 如 ARM 的 处 理 器 核 、 高 性 能 外 围 设备 、 直 接 内 存 存 取 (Di- 
rect Memory Access，DMA) 控制 器 、 片 上 内 存 和 接口 。 它 是 一 个 高 速 的 高 带宽 
总 线 结构 ， 使 用 分 离 的 地 址 ， 读 和 写 总 线 。 标 准 建议 数据 操作 最 小 为 32 字 节 ， 
数据 位 宽 被 扩展 到 1024 位 。 支 持 并 发 的 多 主 / 从 设备 操作 。 它 也 支持 数据 的 突 发 
传输 模式 和 分 离 的 事务 。 所 有 在 AHB 上 的 事务 都 被 关联 在 一 个 单一 的 时 钟 沿 ， 
这 使 得 系统 级 设计 更 容易 理解 。 

e 高 级 外 围 总 线 (Advanced Peripheral Bus，APB) 比 AHB 的 性 能 低 一 些 ， 
但 是 能 够 使 功 耗 降低 到 最 优 水 平 ， 并 且 减 小 了 接口 的 复杂 程度 。 它 被 用 于 设计 接 
口 ， 以 降低 外 围 模块 的 运行 速度 。 

第 三 种 总 线 ， 叫 做 高 级 系统 总 线 (Advanced System Bus, ASB), Ef AHB 
的 前 身 ， 被 用 于 低 性 能 的 系统 设计 ， 使 用 16/32 位 的 微 控制 器 。 当 AHB 开销 、 
性 能 和 复杂 度 不 合适 时 ， 就 会 用 到 ASB, 

AMBA 总 线 被 设计 用 于 在 SoC 综合 时 ， 产 生 一 系列 信息 的 地 址 。 这 些 信息 来 
AF ARM 处 理 器 的 使 用 者 。 它 设计 的 目标 有 以 下 几 个 : 

1. 模块 化 设计 和 设计 的 重用 。 因 为 ARM 处 理 器 的 总 线 接口 是 非常 灵活 的 ， 
通过 使 用 特别 的 总 线 和 控制 逻辑 ， 经 验 不 丰富 的 设计 者 可 能 会 不 经 意 地 开发 出 低 
效 的 甚至 不 可 工作 的 产品 。AMBA 总 线 规格 鼓励 模块 化 的 设计 方法 ， 这 可 以 更 好 
地 支持 模块 化 的 设计 和 设计 的 重用 。 

2. 定义 良好 的 接口 协议 、 时 钟 和 重 置 。AMBA 总 线 定 义 了 一 个 低 开销 的 总 
线 接 口 和 简单 灵活 的 时 钟 结 构 ，AMBA 总 线 的 性 能 被 它 的 多 主 设备 、 分 离 的 事务 
和 突 发 模式 操作 所 提高 。 

3. 低 功 耗 支持 。 与 其 他 租 人 式 处 理 器 核 相 比 ， 一 个 ARM 处 理 器 吸引 人 的 地 
方 是 它 的 功 耗 效率 。AMBA 总 线 的 两 层 设 计 使 得 它 在 外 围 模 块 的 能 源 效 率 设 计 上 
可 以 很 好 地 适应 低 功 耗 的 CPU 核 。 

4. 片上 访问 测试 。AMBA 总 线 有 一 个 可 选 的 片上 访问 测试 的 功能 ， 它 可 以 
重新 利用 基本 总 线 的 基础 设备 进行 连接 到 总 线 上 的 模块 的 测试 。 

AHB 图 5.2 给 出 了 一 个 典型 的 AMBA 总 线 系 统 。AHB 是 这 个 系统 的 主干 ， 
ARM 处 理 器 、 高 位 宽 内 存 接口 、RAM 和 DMA 设备 在 主干 的 两 侧 。AHB 和 慢 速 
的 APB 通过 一 个 总 线 桥 模块 连接 。 

AMBA AHB 协议 被 设计 用 于 实现 一 个 多 主 设备 系统 。 不 像 大 多 数 的 为 基于 
PCB 的 系统 设计 的 总 线 结构 ，AMBA AHB 通过 采用 一 个 中 心 多 路 选择 器 的 设计 ， 
避免 了 三 态 的 实现 。 与 使 用 三 态 缓冲 器 的 方法 相 比 ， 这 种 互联 的 方法 提供 了 更 高 
的 性 能 和 更 低 的 功 耗 。 所 有 总 线 主 设备 维护 自己 的 地 址 并 且 控 制 信号 ， 以 指示 每 
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DMA 主 设备 





图 5.2 一 个 典型 的 AMBA 总 线 系统 '”] 


个 主 设备 所 需 传输 的 类 型 。 一 个 中 心 仲裁 器 决定 哪 一 个 主 设备 拥有 到 达 所 有 从 设 
备 的 地 址 和 控制 信号 。 一 个 中 心 解码 器 电路 选择 正确 的 读数 据 然后 返回 来 自 参 与 
事务 的 从 设备 的 反馈 信号 。 图 5. 3 给 出 的 三 个 主 设备 和 四 个 从 设备 的 多 路 选择 互 
联 就 是 这 样 一 个 多 路 选择 器 的 互联 设计 。 
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在 AHB 上 的 事务 步 又 如 下 : 

。 总 线 主 设备 获得 总 线 的 访问 权 。 这 个 过 程 以 主 设备 发 起 一 个 请 求 信 号 到 
仲裁 器 开始 。 如 果 多 于 一 个 的 主 设备 同时 请 求 对 总 线 的 控制 权 ， 仲 裁 器 决定 哪 一 
个 主 设备 被 授予 对 总 线 的 使 用 权 。 
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。 总 线 主 设备 初始 化 传输 。 被 授予 总 线 使 用 权 的 主 设备 ， 驱 动 地 址 和 控制 
信号 ， 控 制 信号 包括 地 址 、 方 向 和 传输 的 位 宽 。 它 也 会 检查 是 否 本 次 传输 是 一 个 
突 发 的 一 部 分 ， 以 适用 于 突 发 传输 的 操作 。 一 个 写 数 据 总 线 操作 将 数据 从 主 设备 
移 到 从 设备 ， 而 一 个 读数 据 总 线 操作 将 数据 从 从 设备 移 到 主 设备 。 

© 总 线 从 设备 提供 反馈 。 从 设备 返回 给 主 设备 的 关于 传输 状态 的 信和 号， 如 
传输 是 否 成 功 、 是 否 需要 延 时 或 者 是 否 有 错误 发 生 。 

图 5. 4a 给 出 了 一 个 基本 的 AHB 传输 。 一 个 AHB 传输 由 两 个 区 别 显著 的 过 
程 段 : 地 址 过 程 和 数据 过 程 。 主 设备 发 起 地 址 (ADDR) 并 在 地 址 过 程 的 时 钟 的 
上 升 沿 控制 信和 号， 这 常常 持续 一 个 周期 。 然 后 从 设备 采样 地 址 和 控制 信和 号， 并 且 
在 数据 过 程 段 ， 根 据 数 据 的 读 取 (RDATA) 和 写 人 (WDATA) 操作 给 出 相应 的 
ik, URIS BBE (READY) 信号 作为 完成 的 标志 。 从 设备 通过 延迟 发 送 
(READY) 信号 ， 可 以 向 任何 传输 加 入 等 待 状态 ， 如 图 5.4b 所 示 。 对 于 一 个 写 
操作 ， 总 线 主 设备 在 整个 数据 周期 中 保持 数据 的 有 效 。 对 于 一 个 读 传输 ， 从 设备 
不 提供 有 效 的 数据 直到 数据 过 程 段 的 最 后 一 个 周期 。 


地 址 周期 ”数据 周期 地 址 周期 数据 周期 
cLK 一 一 一 一 一 | CLK 
ADDR a e—a ADDR a oa _________—_—_-8 
Control “——s e—a Control | a2 
WDATA &——# „a WDATA &——# e—a‘ 
READY os e—a READY 是 一 一生 =——_a 
RDATA &——# L i RDATA &——#® e—a 


a) b) 


图 5.4 一 个 基本 的 AHB fh 
a) 传输 中 没有 等 待 状态 b) 传输 中 有 等 待 状态 


AHB 是 一 个 管道 式 (独占 ) 总 线 。 因 此 ， 在 前 一 个 传输 的 数据 过 程 段 ， 任 何 
传输 的 地 址 过 程 都 可 以 发 生 。 这 种 重 秋 的 管道 特点 使 得 总 线 操作 具有 很 高 的 性 能 。 

APB 相 比 于 性 能 ，APB 在 最 小 功 耗 和 低 复杂 度 上 更 具 优点 。 它 被 用 于 低 带 
宽 的 外 围 设备 的 接口 。 

APB 的 操作 是 直接 的 ， 可 以 用 三 态 的 状态 图 来 描述 。APB 或 者 保持 空闲 状 
态 ， 或 者 在 建立 状态 循环 ， 或 者 处 于 数据 传输 使 能 状态 。 
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5.4.2 CoreConnect 总 线 


和 AMBA 总 线 一 样 ，IBM 的 CoreConnect 总 线 也 是 一 个 SoC 总 线 标准 。 它 被 
用 于 一 个 特别 的 处 理 器 核 一 一 PowerPC 的 外 围 设 计 ， 但 它 也 用 于 其 他 的 处 理 器 。 
CoreConnect 总 线 和 AMBA 总 线 有 相同 的 特点 : 它们 都 有 一 个 层次 化 的 总 线 ， 以 
满足 不 同 级 别 的 总 线性 能 和 复杂 度 ; 它们 都 有 高 级 总 线 的 特点 ， 如 多 主 设备 、 分 
离 的 读 / 写 端口 、 管 道 技术 、 分 离 的 事务 、 突 发 模式 传输 和 扩展 的 总 线 位 宽 。 

CoreConnect 总 线 的 结构 提供 了 三 种 总 线 用 于 核 、 宏 单元 库 和 自制 逻辑 的 
互联 

o 处 理 器 本 地 总 线 (Processor Local Bus, PLB) 

e 片上 外 围 总 线 (On-chip Peripheral Bus, OPB) 

o 设备 控制 寄存 器 (Device Control Regtster, DCR) BA 

图 5.5 给 出 了 一 个 典型 的 SoC CoreConnect 总 线 系 统 ， 说 明了 在 SoC 中 围绕 
PowerPC 是 如 何 利用 CoreConnect 总 线 结构 的 。 高 性 能 、 高 带宽 块 ， 如 PowerPC 
440 CPU 核 ，PCI-X 总 线 桥 和 PC133/DDR133 (133 MHZ BAAN DDR1) SDRAM 
控制 器 ， 通 过 PLB 被 连接 在 一 起 ，OPB 保持 外 围 的 片上 低 数据 速率 。 菊 花 链 
DCR 总 线 为 在 PowerPC 440 CPU 核 和 其 他 片上 模块 这 件 传递 配置 信息 和 状态 信息 
提供 了 一 个 相对 低速 的 数据 通路 。 












PLB 
(128 位 ) 


DMA 主 设备 
=" 图 5.5 ”一 个 典型 的 SoC CoreConnect 总 线 系统 008] 


PLB PLB 用 于 高 带宽 、 高 性 能 和 低 延 迟 的 处 理 器 、 内 存 和 DMA 控制 器 
之 间 的 互联 。 它 是 完全 同步 的 分 离 事务 的 总 线 ， 有 分 开 的 地 址 、 读 和 写 数据 总 
线 ， 人 允许 两 个 传输 每 个 时 钟 周期 同时 传输 。 所 有 主 设备 有 它们 自己 的 地 址 、 读 数 
据 、 写 数据 和 控制 信号 ， 这 些 信号 叫做 传输 修饰 信号 。 总 线 从 设备 也 具有 地 址 、 
读数 据 和 写 数据 总 线 ， 但 是 这 些 总 线 都 是 被 共享 的 。 

和 AMBA AHB 一 样 ，PLB 事务 有 多 个 阶段 组 成 ， 这 些 阶 段 可 能 会 持续 一 个 
或 者 多 个 时 钟 周期 ， 并 且 地 址 和 数据 总 钱 是 分 离 的。 事务 的 地 址 总 线 有 三 个 阶 
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Be: WRK (RQ), feti (XFER) 和 地 址 反馈 (ACK)。 一 个 PLB 的 事务 开始 于 
一 个 主 设备 驱动 它 的 地 址 和 传输 控制 信号 ， 并 且 请 求 在 地 址 独占 请 求 阶段 时 对 总 
线 的 占有 权 。 一 旦 PLB 仲裁 器 将 总 线 占 有 权 授 予 主 设备 ， 在 传输 阶段 ， 主 设备 
的 地 址 和 传输 信息 会 被 呈现 给 从 设备 。 在 地 址 反馈 收 到 阶段 ， 地 址 周期 在 从 设备 
锁 存 主 设备 地 址 和 传输 信息 后 结束 。 

图 5. 6 给 出 了 一 个 描述 了 两 个 深度 读 和 写 地 址 的 管道 传输 和 并 发 读 和 写 数 据 
时 的 独占 总 线 情况 。 主 设备 A 和 主 设备 B 代表 每 一 个 主 设备 的 地 址 和 传输 信息 
的 状态 。PLB 在 这 些 请 求 中 进行 仲裁 ， 并 将 选择 的 主 设备 的 请 求 传递 给 PLB 从 
设备 的 地 址 总 线 。 标 识 着 地 址 阶段 的 通路 展示 了 PLB 从 设备 地 址 总 线 在 每 一 个 
PLB 时 钟 下 的 状态 。 


PLB 时 钟 Ce a a a. aT mT | 


















主 设备 A 
主 设备 B 
地 址  [ XFER/ACK || XFER/ACK || XFERACK |[_XFER/ACK | 
写 数据 [XFER/ACK  XFERJACK| [XFERJACK __XFER/ACK 
读数 据 [XFER/ACK __XFER/ACK| 


图 5.6 一 个 PLB 传输 协议 


在 数据 独占 总 线 阶 段 的 每 一 次 数据 传递 有 两 个 阶段 : 传输 和 反馈 收 到 。 在 传 
输 阶 段 ， 主 设备 驱动 写 数据 总 线 进行 写 传 输 或 者 采样 读数 据 总 线 进 行 读数 据 传输 。 
如 图 5. 6 所 示 ， 第 一 个 〈 或 者 只 有 一 个 ) 数据 写 传递 和 地 址 传输 阶段 同时 发 生 。 

分 离 事务 PLB 地址 、 读 数据 和 写 数据 总 线 被 减弱 ， 以 允许 地 址 周期 被 重 释 
使 用 于 读 和 写 数据 周期 ， 并 且 人 允许 读 数据 周期 被 重 释 用 于 写 数据 周期 。PLB 分 离 
总 线 事务 的 能 力 允 许 地 址 和 数据 总 线 在 同一 时 刻 有 不 同 的 主 设备 。 另 外 ， 第 二 个 
主 设备 可 能 在 另 一 个 主 设备 总 线 的 数据 传输 周期 内 ， 通 过 地 址 管道 请 求 对 PLB 
总 线 的 占有 权 。 这 种 情况 利用 图 5. 6 所 示 的 通过 各 种 信号 之 间 的 依赖 来 描述 ， 信 
号 用 箭头 表示 。 

OPB ”OPB 是 第 二 种 总 线 设 计 ， 它 通过 减少 PLB 的 承载 容量 5 来 减轻 系统 性 
能 的 瓶颈 。 适 用 于 OPB 的 外 围 设备 包括 串 行 端口 、 并 行 端口 、UART、 通 用 目的 I 
O (General Purpose I/O, GPIO), 、 计 时 器 和 其 他 低 带 宽 的 设备 。OPB 比 AMBA APB 
更 加 复杂 。 通 过 将 地 址 和 数据 总 线 设 计 为 分 配 选 择 器 ， 它 支持 多 主 设 备 和 从 设备 。 
这 种 结构 适用 于 数据 不 敏感 的 OPB， 并 且 人 允许 外 围 设备 加 入 到 自制 的 核心 逻辑 设 
计 中 而 不 改变 OPB 仲裁 器 或 者 已 存在 的 外 围 设备 的 VO。 图 5.7 给 出 了 一 种 OPB 
结构 ， 其 中 包括 了 地 址 和 数据 总 线 结构 。 主 设备 和 从 设备 都 为 外 出 总 线 提供 使 能 控 
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制 信号 。 通 过 要 求 每 一 个 单元 提供 这 个 信号 ， 相 关联 总 线 的 组 合 逻 辑 可 以 被 有 策略 
地 分 布 在 整个 芯片 上 。 如 图 5.7 所 示 ， 任 何 一 个 主 设备 有 向 从 设备 提供 地 址 的 能 
力 ， 然 而 主 设备 和 从 设备 都 具有 驱动 和 接受 分 布 式 数据 总 线 的 能 力 。 


Nn 
一 


Nn 
v 


= 
w 
al 


> 





图 5.7 一 种 OPB Hy!) 
表 5.3 给 出 了 CoreConnect 和 AMBA 总 线 标准 的 比较 。 
表 5.3 CoreConnect 和 AMBA 总 线 标准 的 比较 5281 


NAM AMBA Z0 ANA EEE 
TAER TANET 
数据 总 线 分 离 的 读 和 写 
多 总 线 主 设备 
四 深 (four-deep) 读 管道 ， 
主要 性 能 分 离 事务 
突 发 传输 
线 传输 线 传输 
AMBA APE 
» z 单一 设备 : 
co FA ao ERE 
数据 总 线 分 离 的 读 和 写 
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5.4.3 ”总 线 接口 单元 : 总 线 套 接 字 和 总 线 封 装 


让 不 同 的 可 重用 的 IP 核 综合 使 用 一 个 标准 的 SoC 总 线 ， 有 一 个 重大 的 缺点 。 
因为 标准 总 线 在 线路 连接 上 定义 协议 ， 一 个 通过 一 种 总 线 标准 编译 的 IP 核 不 能 
使 用 在 用 其 他 总 线 标准 编译 的 块 中 。 解 决 这 个 问题 的 一 个 方法 是 采用 一 个 硬件 
“ 套 接 字 ”， 这 是 5.2 节 中 总 线 封装 的 一 个 例子 ， 它 通过 使 用 良好 设计 的 不 依赖 
物理 总 线 协议 的 IP 核 协议 ， 将 互联 逻辑 和 IP 核 进行 分 离 。 因 此 ， 核 对 核 的 通信 
被 接口 封装 处 理 。 这 种 方法 被 虚拟 套 接 字 接 口 联 盟 (Virtual Socket Interface Alli- 
ance，VSIA) [4 通过 它们 的 虚拟 组 件 接口 (Virtual Component Interface，VCI) 而 
使 用 ， 并 且 也 被 美国 Sonics 公司 通过 采用 开源 协议 (Open Core Protocol, OCP) 
和 Silicon Backplance Network 所 使 用 。 

VSIA 提倡 一 系列 的 标准 和 接口 ， 被 熟知 的 是 虚拟 套 接 字 接 口 (Virtual Sock- 
et Interface，VSI) ， 它 使 得 芯片 上 系统 级 的 互动 能 够 使 用 预先 设计 好 的 模块 (ER 
作 虚 拟 组 件 9)5”] 。 这 鼓励 了 使 用 组 件 范式 进行 设计 。VC 是 高 效 的 IP 模块 ， 
符合 VSI 的 规定 ， 它 们 可 以 是 三 种 类 型 中 的 一 种 。 硬 VC 由 所 有 定义 的 硅 层 上 布 
局 布线 好 的 门 组 成 。 它 的 性 能 、 面 积 和 功 耗 是 可 预测 的 ， 但 不 够 灵活 。 软 VC 被 
定义 在 硬件 描述 语言 的 表示 中 ， 它 们 通过 综合 、 布 局 和 布线 被 映射 到 物理 设计 
中 。 它 们 可 以 被 方便 地 修改 ， 但 是 通常 需要 更 多 的 精力 在 SoC 设计 中 进行 综合 和 
验证 ， 同 时 它 的 性 能 可 预测 性 也 较 小 。 最 后 ， 固 件 VC 在 这 两 者 之 间 进 行 了 折 
中 。 它 们 以 发 生 器 或 部 分 布局 好 的 模块 库 的 形式 ， 通 过 要 求 最 后 的 布线 或 者 布局 
调整 来 实现 。 这 种 形式 的 VC 比 软 VC 提供 了 更 加 可 预测 的 性 能 ， 在 一 些 情况 和 
配置 下 仍旧 是 比较 灵活 的 。 

为 了 将 这 些 不 同 的 VC 连接 起 来 ，VSIA 研发 出 一 个 VCI 的 规定 ， 在 这 个 规 
定 下 其 他 合适 的 总 线 可 以 与 其 进行 接口 连接 。 根 据 VCI 的 规定 ， 设 计 者 可 以 将 
一 个 VC 和 其 他 任何 几 个 总 线 综合 使 用 ， 从 而 达到 系统 性 能 的 要 求 。VCI 标准 定 
义 了 一 系列 的 协议 。 目 前 定义 了 三 种 协议 : 外 围 VCI (Peripheral VCI, PVCI), 
基本 VCI (Basic VCI, BVCI) 和 高 级 VCI (Advanced VCI，AVCI) [5291 。PVCI 是 
一 个 低 性 能 协议 ， 它 的 请 求 数据 和 反馈 数据 的 传输 发 生 在 一 个 单一 控制 握手 事务 
中 。 因 此 ， 它 不 是 分 离 事 务 的 协议 。BVCI 采用 分 离 事务 的 协议 ， 但 是 反馈 必须 
按 顺 序 到 达 。 换 句 话 说 ， 反 馈 数 据 必 须 和 产生 请 求 的 顺序 一 致 。AVCI 和 BVCI 
相似 ,但 是 允许 乱 序 的 事务 。 请 求 被 加 上 标签 ， 并 且 事 务 可 以 交叉 进行 和 重新 
排序 。 

另外 ，VSIA 也 定义 了 一 些 抽 象 层 表 示 ， 用 于 将 VC 集成 到 SoC Hit), 
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这 样 做 的 思想 是 ， 如 果 IP 模块 提供 者 (VC 提供 者 ) 和 系统 综合 者 (VC 综合 
者 ) 符合 VSI 在 所 有 抽象 层 的 规定 ， 那 么 使 用 IP 组 件 范式 的 SoC 设计 就 可 以 在 
较 低 错误 风险 下 进行 。 

相对 于 VCI 的 男 一 个 选择 是 OCP， 它 被 国际 开源 协议 组 织 (Open Core Proto- 
col International Partnership, OCP-IP) 所 推荐 "” 。0OCP 在 两 个 通信 的 实体 之 间 定 
义 了 一 个 点 对 点 的 接口 ， 如 在 两 个 IP 核 之 间 使 用 核 中 央 协 议 。 使 用 OCP 的 接口 
假定 具有 套 接 字 的 属性 ， 如 之 前 所 说 的 ， 它 是 一 个 高 效 的 总 线 封装 ， 人 允许 对 目标 
总 线 进行 接口 连接 。 图 5. 8 给 出 了 一 个 使 用 OCP 和 总 线 封装 的 三 IP 核 模块 系 
统 。 一 个 模块 是 系统 初始 化 器 ， 一 个 是 系统 目标 ， 另 一 个 既是 初始 化 器 也 是 
目标 。 

系统 初始 化 器 ( 主 设备 ) 初始 化 器 或 目标 目标 (从 设备 ) 









主 设备 模块 


总 线 目标 





总 线 接口 封装 模块 
图 5.8 一 个 使 用 OCP 和 总 线 封装 的 三 IP 核 模块 系统 52251 


另 一 个 互联 层次 可 以 在 OCP 的 基础 上 进行 ， 从 而 有 助 于 进行 更 深入 的 全 综 
Fo Sonics 公司 推崇 它们 专 有 的 SiliconBackplance 协议 ， 这 个 协议 无 缝 地 将 使 用 
OCP 的 卫 模块 连接 起 来 。 不 同 模块 之 间 的 通信 在 Silicon Backplane wNetwork 上 进 
行 ， 这 个 ANetwork 具有 可 扩展 的 50 ~ 4000 MB/s 的 带宽 。 5.9 给 出 了 美国 
Sonics 公司 的 wNetwork 配置 ， 说 明了 组 件 是 如 何 连接 在 一 起 的 2 ] 。 

使 用 封装 技术 的 总 线 接口 单元 已 经 说 明了 如 何 减少 设计 SoC 的 时 间 ， 但 是 它 
是 建立 在 开销 门 资源 和 延迟 的 基础 上 的 。 加 入 简单 的 封装 硬件 会 增加 存 取 的 延 
时 ， 并 且 会 导致 3 ~5K 个 门 的 硬件 开销 "“]。 

男 外 ， 总 线 接口 单元 可 以 使 用 FIFO 缓冲 器 来 提高 性 能 。 图 5. 10 给 出 了 在 总 
线 接口 单元 采用 写 数据 缓冲 器 所 带 来 的 硬件 开销 和 性 能 的 提升 。 

写 缓冲 器 提供 了 几 个 周期 的 延迟 优化 和 10% 的 吞吐 量 增加 ， 延 迟 取 决 于 数 
据 的 大 小 。 
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图 5.9 美国 Sonics 公司 的 uNetwork ee) 


硬件 (TT) 


包装 硬件 / 门 





采用 突 发 模式 带 来 的 性 能 提升 百分比 (%) 


缓冲 大 小 |B 
b) 
图 5. 10 ”在 总 线 接口 单元 采用 写 数据 缓冲 器 所 带 来 的 硬件 开销 和 性 能 的 提升 ” 
a) 写 缓冲 器 的 硬件 开销 b) 缓冲 器 对 突 发 模式 传输 的 性 能 影 效 
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5.5 总 线 模型 分 析 


5.5.1 竞争 和 共享 总 线 


两 个 或 多 个 单元 同时 请 求 一 个 不 能 被 提供 的 共享 的 资源 时 ， 就 发 生 了 竞争 。 
竞争 发 生 时 ， 有 两 种 处 理 方 式 : (1) 延迟 请 求 并 置 为 空闲 状态 直到 资源 可 用 ; 
(2) 在 一 个 缓冲 中 对 请 求 进行 排队 直到 资源 可 用 时 再 开始 运行 。 方 式 (2) 只 在 
请 求 的 资源 对 于 程序 运行 不 是 逻辑 上 必须 的 情况 下 发 生 ( 如 缓存 的 预 取 ) 。 

是 否 需要 分 析 总 线 的 竞争 取决 于 总 线 的 最 大 或 提供 的 ) 带宽 和 内 存 带 宽 
的 关系 。 竞 争 和 排队 是 系统 的 瓶 席 ， 因 此， 最 被 限制 的 资源 是 具有 竞争 性 的 资源 
和 系统 的 延迟 部 分 资源 。 因 此 ， 当 总 线 比 内 存 受到 更 大 限制 时 (具有 较 小 的 可 
用 带宽 ) ， 总 线 必须 进行 竞争 分 析 。 

总 线 常 没有 缓冲 〈 队 列 ) ， 存 取 延 时 导致 系统 变 慢 。 总 线 阻 塞 的 影响 分 析 取 
决 于 存 取 类 型 和 缓冲 技术 。 

通常 有 以 下 两 种 类 型 的 存 取 模 式 : 

1. 没有 立即 重新 提交 的 请 求 。 被 拒绝 的 请 求 返回 和 原始 请 求 一 样 的 到 达 分 
配 。 一 且 请 求 被 拒绝 ， 程 序 继续 执行 ， 尽 管 重新 提交 请 求 会 产生 延迟 。 缓 存 行 的 
预 取 就 是 这 样 一 个 例子 ， 它 不 被 当前 程序 的 继续 执行 所 需要 。 

2. 立即 重新 提交 的 请 求 。 当 多 个 独立 的 处 理 器 存 取 一 个 共同 的 总 线 时 ， 这 
是 更 加 典型 的 例子 。 程 序 不 能 在 一 个 请 求 被 拒绝 后 继续 执行 。 被 拒绝 的 请 求 会 立 
即 重新 提交 。 处 理 器 处 于 闲置 状态 直到 请 求 被 接受 并 执行 。 


5.5.2 简单 的 总 线 模型 : 没有 重新 提交 


下 面 ， 假 定 每 一 个 请 求 占据 总 线 相同 的 服务 时 间 ( 即 Tieas) o MEAR 
个 不 同类 型 的 总 线 使 用 者 ( 即 ， 单 线 上 的 字 请 求 和 线 请 求 或 [ 脏 ] 双 线 上 的 请 
求 ) ， 大 多 数 情况 可 以 通过 简单 的 计算 每 一 个 处 理 器 的 平均 总 线 占有 率 p 来 合理 
地 估计 ， 公 式 如 下 : 
E 总 线 传 输 时 间 
P “处 理 器 处 理 时 间 + 总 线 传输 时 间 
处 理 器 时 间 是 处 理 器 在 处 理 一 个 总 线 请 求 之 前 的 所 需 计 算 的 平均 时 间 。 当 
然 ， 处 理 器 可 能 将 一 些 计算 时 间 与 总 线 时 间 重 又 。 在 这 种 情况 下 ， 处 理 器 时 间 是 
总 线 请 求 之 间 不 重 释 的 时 间 。 任 何 情况 下 , p<1。 
n 个 处 理 器 访问 总 线 的 最 简单 模型 如 下 : 
Prob( 处 理 器 不 访问 总 线 的 概率 ) =1 -p 
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Prob( 总 线 忙 的 概率 ) = (1 -p)" 
= 宽带 的 分 数 形式 =B(p,n) 
带宽 的 分 数 形式 乘 以 最 大 总 线 带 宽 ， 得 到 实现 的 总 线 带宽 Bw。 
每 个 处 理 器 的 实现 带宽 的 分 数 形式 (实现 的 占有 率 ) p, 由 如 下 公式 给 出 : 
mp, =B(p, n) 


由 于 总 线 阻塞 ， 处 理 器 变 慢 ， 为 p,/p。 
5.5.3 重新 提交 的 总 线 模型 


支持 请 求 重新 提交 的 模型 需要 更 加 复杂 的 分 析 和 反复 的 解决 办 法 。 这 里 有 几 
个 解决 方法 ， 每 个 方法 都 产生 相似 的 结构 。 被 Hwang 和 Briggs "提出 的 解决 方 
法 是 对 下 面 一 对 方程 的 反复 迭代 : 


p o 
"=p (p/p) p) 
和 
np, =1-(1-a)" 
AF, a 为 实际 提供 的 请 求 率 。 为 了 得 到 p,， 初始化 时 以 a =p 作为 迭代 的 开始 。 
一 般 四 次 迭代 后 会 收敛 。 


5.5.4 使 用 总 线 模型 : 计算 给 定 的 占有 率 


在 执行 部 分 中 的 模型 在 事务 类 型 中 没有 区 分 。 它 仅 要 求 总 线 事务 的 平均 时 
间 ， 这 个 时 间 是 总 线 处 理事 务 所 用 的 平均 周期 数 。 下 一 个 问题 是 找到 给 出 的 占有 
率 p。 

给 出 的 占有 率 是 在 事务 之 间 没 有 竞争 的 情况 下 总 线 繁忙 时 间 的 分 数 部 分 。 为 
了 找到 这 个 分 数 部 分 ， 需要 决定 总 线 事务 的 平均 时 间 和 事务 之 间 的 计算 时 间 。 

处 理 器 初始 化 事务 的 自然 性 是 另 一 个 影响 因素 。 简 单 的 处 理 器 产生 阻塞 事务 。 
在 这 种 情况 下 ， 处 理 器 在 总 线 请 求 产生 之 后 处 于 空闲 状态 ， 并 且 仅 在 总 线 事务 完成 
后 重新 开始 计算 。 对 于 更 加 复杂 的 处 理 器 的 一 个 选择 是 缓冲 的 (或 者 没有 阻塞 的 ) 
事务 。 在 这 种 情况 下 ， 处 理 器 在 作出 一 个 请 求 后 继续 进行 工作 ， 并 且 确 实 可 能 在 完 
成 初始 的 请 求 之 前 产生 几 个 请 求 。 根 据 系统 的 配置 ， 有 两 种 常见 的 情况 : 

1. 具有 阻塞 事务 的 单一 总 线 主 设备 。 在 这 个 例子 中 ,没有 总 线 竞 争 ， 因 此 处 理 
器 会 等 待 事务 的 完成 。 这 里 ， 实 现 的 占有 率 p, 与 给 出 的 占有 率 相同 ， 并且 p =p, = 
(总 线 事务 时 间 ) / (计算 时 间 + 总 线 事务 时 间 )。 

2. 具有 阻塞 事务 的 多 总 线 主 设备 。 在 这 个 例子 中 ， 给 出 的 占有 率 是 mp, P 
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是 情况 1 中 的 p。 现 在 会 发 生 竞争 ， 因 此 使 用 总 线 模型 去 决定 实现 的 占有 率 p。。 

例 5.2 

假设 一 个 处 理 器 有 由 缓存 行 传输 组 成 的 总 线 事务 。 假 定 80% 的 事务 移动 单 
行 并 且 占 据 总 线 20 个 周期 ，20% 的 事务 移动 双 行 (如 脏 行 替 换 ) 并 占据 总 线 36 
个 周期 。 总 线 事务 的 平均 时 间 是 23. 2 个 周期 。 现 在 假设 ， 每 200 个 周期 发 生 一 
次 缓冲 未 命中 (事务 ) 。 

在 情况 1 中 ， 总 线 被 占用 : p =p, =23.2/223.2 = 0.10。 这 里 没有 竞争 , 但 
是 总 线 造 成 系统 速度 变 慢 ， 这 在 下 面 会 讨论 到 。 

在 情况 2 中 ， 假 设 有 四 个 处 理 器 。 现 在 给 出 的 占有 率 是 p = 0. 104 并 且 用 模型 
去 计算 竞争 时 间 。 开 始 时 设置 a =p =0.104, np, =1-(1-o)"=1-(1-0.104); 
现在 得 到 了 p REM p, 替代 a 并 继续 。 

因此 ， 开 始 时 ，p. =0. 089; 下 一 次 迭代 后 ，p。 =0.010; 然后 经 过 几 次 迭代 
后 , p. =0. 095。 总 是 得 到 比 给 出 的 小 的 值 ， 产 生 这 种 不 同 是 由 竞争 带 来 的 延迟 


造成 的 。 因 此 有 
en 总 线 传输 时 间 
a 计算 时 间 + 总 线 传输 时 间 + 竞争 时 间 
计算 竞争 时 间 ， 得 到 的 结果 是 21 个 周期 。 


5.5.5 总线 事务 的 影响 和 竞争 时 间 


总 线 延迟 对 于 整个 系统 的 性 能 的 影响 有 两 个 方面 ; 第 一 个 显然 是 阻塞 ， 它 简 
单 地 将 事务 延迟 插入 到 程序 的 执行 过 程 中 ;第 二 个 影响 是 竞争 ， 它 降低 了 事务 在 
总 线 和 内 存 上 流通 的 速率 。 这 多 少 降低 了 系统 的 性 能 。 

在 阻塞 的 情况 下 ， 处 理 器 因为 总 线 事务 数量 较 多 而 变 慢 。 因 此 ， 与 没有 总 线 
事务 的 理想 处 理 器 相 比 ， 其 相对 性 能 为 

Was 计算 时 间 
相对 性 能 = 计算 时 间 + BRE 

在 情况 1 中 ， 处 理 器 变 慢 ， 为 之 前 的 200/223. 3 =0. 896, 

当 出 现 竞争 是 ， 会 增加 额外 的 延迟 。 在 情况 2 中 ， 单 个 处 理 器 变 慢 为 之 前 的 
200/(223.2 +21) =0. 819。 竞 争 导致 的 系统 (没有 竞争 ) 变 慢 以 比率 pujp 来 表 
示 。 由 于 这 个 比率 ， 将 减少 提供 的 事务 。 


5.6 超越 总 线 : 拥有 交换 互联 的 NoC 


虽然 总 线 互联 在 SoC 互联 结构 中 占 主导 地 位 ， 它 仍 具 有 很 多 缺点 。 即 使 一 个 
设计 很 好 的 基于 总 线 的 系统 ， 也 可 能 遇 到 数据 传输 的 瓶颈 ， 也 就 限制 了 整个 系统 
的 性 能 。 它 也 不 具备 可 升级 性 。 当 越 多 的 模块 被 添加 到 总 线 时 ， 不 仅 数据 阻塞 增 
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加 ， 而 且 功 耗 也 会 由 于 总 线 电 路 增加 的 负载 而 增加 。 基 于 交换 的 NoC 互联 避免 
了 一 些 这 样 的 限制 。 然 而 ， 交 换 器 天 生 比 总 线 要 复杂 ， 这 在 大 型 SoC 配置 中 更 有 
用 。 交 换 设 计 中 有 很 大 权衡 的 可 能 。 大 量 节 点 可 以 用 相对 较 小 的 延迟 互联 起 来 ; 
但 是 在 开销 以 指数 增加 的 基础 上 ( 像 交 叉 开 关 ) ， 也 可 用 相对 较 大 的 延 时 互联 起 
来 ， 这 时 开销 较 小 (如 分 布 式 互联 )。 

本 节 介 绍 了 一 些 基本 的 概念 和 物理 互联 网 络 设计 的 一 些 方法 选择 。 这 个 网 络 
由 配置 的 交换 器 组 成 ， 它 将 W 个 单元 连接 起 来 。 互 联网 络 设 计 的 效率 或 者 费用 - 
性 能 高 低 由 以 下 内 容 决定 : 

1. 将 一 个 请 求 单 元 与 它 的 目的 单元 连接 起 来 的 延迟 。 

2. 单元 之 间 的 带宽 和 连接 的 并 发 数量 。 

3. 互联 网 络 的 开销 。 

在 一 个 网 络 中 ， 单 元 之 间 通 过 链 路 或 
者 通道 来 通信 ， 通 信 方 式 可 以 是 单 向 的 也 
可 以 是 双向 的 。 链 路 具有 带宽 或 每 个 单元 
时 间 的 传输 字 节 数 ， 从 而 能 够 在 单元 ( 节 
点 ) 之 间 并 行 地 进行 传输 。 一 个 节点 的 分 
列 数 是 连接 到 邻近 节点 的 双向 通道 的 数量 
( 见 图 5.11)。 

网 络 可 以 是 静态 的 或 是 动态 的 。 在 图 5.11 节点 和 通道 (节点 的 分 列 数 是 
一 个 静态 网 络 中 ， 拓 扑 结构 或 者 节点 之 连接 到 邻近 节点 的 通道 数量 ) 
间 的 关系 是 固定 的 〈 见 图 5. 12) 。 两 个 节点 之 间 的 通路 不 会 改变 。 在 一 个 动态 网 络 
中 ， 可 以 选择 节点 之 间 的 通路 ， 以 实现 连接 性 和 提高 网 络 的 带宽 ( 见 图 5. 13 ) 。 








图 5. 12 静态 网 络 (单元 之 间 图 5.13 动态 网 络 (单元 之 间 的 
的 连接 是 固定 的 ) 连接 多 变 ， 形 成 连接 ) 
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静态 网 络 可 以 包含 一 个 二 维 网 格 的 
交换 器 ， 从 而 将 SoC 的 模块 连接 起 来 。 
动态 网 络 可 以 由 一 个 中 心 交叉 开关 构 
成 。 除 了 可 以 避免 传输 阻塞 的 优点 之 
外 ， 基 于 交换 的 设计 可 以 允许 模块 在 不 
同 的 时 钟 频率 下 工作 ， 并 且 可 以 减轻 总 
线 负载 问题 。 

图 5.14 给 出 了 基于 交换 的 互联 ， 
它 将 同一 芯片 本 地 的 一 些 同 步 模块 连接 
在 一 起 '“1。 这 个 交叉 开关 是 完全 异步 
的 。 在 芯片 中 ， 时 钟 域 交 换 器 被 用 于 向 图 5.14 基于 交换 的 互联 
同步 模块 桥接 异步 互联 。 

SoC 互联 交换 

本 节 对 来 自 计 算 机 互联 文献 中 一 些 基本 概念 和 结果 进行 总 结 。 在 SoC 交换 
中 ， 目 前 节点 (单元) 由 于 模具 大 小 被 限制 在 16 ~ 64 个 。 由 于 单元 在 片上 ， 连 
接 带宽 w 相对 比较 大 : 16 ~ 128 条 线 。 在 SoC 中 ， 目 前 动态 网 络 占据 主导 地 位 
(纵横 开关 或 者 多 级 连接 ) ; 使 用 的 静态 网 络 为 网 格 状 ( 环 面 )。 随 着 SoC 单元 数 
的 增加 ， 期 望 可 以 实现 更 加 多 样 的 互联 网 络 。 


5.6.1 静态 网 络 


在 静态 网 络 中 ， 两 个 单元 之 间 的 距离 是 为 了 建立 它们 之 间 的 通信 必须 要 通过 
的 链 路 或 通道 (或 跳 ) 的 最 小 数量 。 网 络 的 直径 是 两 个 任意 网 络 单元 之 间 的 最 
大 距离 (没有 重复 通路 ) 。 一 个 静态 网 络 的 线形 网 络 如 图 5. 15a 所 示 。 网 络 可 以 
是 开放 的 ， 也 可 以 是 自 闭 的 。 一 个 自 闭 的 网 络 通 过 将 一 个 线形 阵列 交换 为 环 ， 提 
高 了 平均 距离 和 直径 ( 见 图 5.15b)。 最 常见 的 静态 网 络 类 型 是 (k, d) 网 
络 “!。 这 是 由 维 数 为 4， 节 点 数 为 的 阵列 重 构 形成 的 。 这 种 网 络 常 是 自 闭 的 ， 
如 环 ,， 它 的 d=1 ; WA, 它 的 d=2。 

假定 在 一 个 线形 阵列 中 有 个 节点 ,希望 去 扩展 网 络 。 可 以 增加 网 络 的 维 
数 ， 产 生 一 个 二 维 的 网 格 网 络 ， 其 中 d =2 ( 见 图 5.15c)， 而 不 是 简单 地 增加 线 
形 元 素数 量 。 这 种 (k, d) 网 络 可 以 是 ,线形 阵列 ，d = 1; 二 维 网 格 ，d = 2; 
立方 阵列 ，d =3; 或 超 立 方 体 。 超 立方 体 结构 常 将 每 维 的 元 素数 量 限 制 在 两 个 ， 
即 夺 =2， 使 用 尽 可 能 多 的 维 来 包含 整个 网 络 。 高 维 网 络 提高 了 连接 性 ， 但 是 增加 
了 连接 交换 的 费用 。 在 每 一 个 最 邻近 的 单元 之 间 必 须 有 一 个 交换 器 ,在 (k, d) 
网 络 中 通常 有 2d 个 邻 紧 单元 。 图 5. 15d 给 出 了 一 个 环 ， 常 被 称 作 最 邻近 单元 的 
网 状 阵列 。 
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图 5.15 没有 预选 位 置 的 静态 网 络 例子 
(这 些 也 被 称 作 (k, d) 网 络 。 在 图 a 和 b 中 , 令 k=4, d=1 (一 维 ); 在 图 e 和 d 中 ， 
令 k=3, d= 2) a) 线形 阵列 b) 含有 闭 包 的 线形 阵列 (I) 
c) 网 格 (二 维 网 ) d) 包含 闭 包 的 kxk 网 格 ( 二 维 网 ) 


特别 的 ， 在 二 元 立方 体 结构 或 者 超 立 方 体 结构 中 ，k =2。 超 立方 体 的 节点 数 
N 和 维 数 按 如 下 方法 决定 : 对 于 (2, n) 网 络 ， 有 双向 通道 的 二 元 n 方 体 有 


N=2" 
对 于 (2, n) 情况 ， 有 
直径 =n 
对 于 一 般 的 具有 维 ， 闭 包 和 双向 通道 的 (k，n) 网 络 ， 有 
N=k" 
或 者 
n = log, N 
和 


se [7] 
例 5.3 假设 有 一 个 4x4 的 网 格 (图 5.15d 所 示 的 环 ) 。 按 (k, d) 来 说 它 
是 一 个 (4，2) W, N=16, n=2， 并 且 维 数 为 4。 
通常 ， 网 络 的 维 数 和 它 最 大 的 距离 对 于 开销 和 性 能 是 重要 的 。 表 5.4 显示 了 
一 些 关 于 64 节点 (N=64) AS (k, d) 网 络 开 销 和 性 能 的 比较 。 


表 5.4 一 些 关 于 64 节点 (N=64) BA (k, d) 网 络 开销 和 性 能 的 比较 


A 
ti fe ER 
ms ay | 6 | « | 3 | 2 
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( 续 ) 


网 格 (16, 2) | 立方 体 (4，3)| 超 立方 体 (2, 4) 


HE 〈 跳 数 ) (最 大 内 部 节点 a x 
ES, dk/2) 
节点 分 列 〈 端 口 ) 2d 2 |e | 8 


注 : 链 路 (和 端口 ) 是 双向 的 ， 有 16 条 线 (w=16), BW (MER, Bisection bandwidth) 指 当 网 
络 被 分 为 两 个 相同 的 部 分 时 ， 被 分 为 两 段 的 信号 线 的 量 。 

1. 链 路 的 周期 时 间 Tu 。 它 指 信息 在 邻近 节点 传播 的 时 间 。17T. 是 链 路 或 通 
道 的 线路 带宽 。 

2. 链 路 的 位 宽 w。 它 决定 在 两 个 节点 之 间 能 够 被 同时 传输 的 位 的 数量 。 

3. 不 区 分 链 路 是 单 向 的 还 是 双向 的 。 

与 链 路 特性 符号 相 联 的 是 信息 的 位 长 度 1 加 上 五 位 头 部 。 这 个 头 部 仅 是 目标 
节点 的 地 址 。 因 此 ，7T, x (+H) w 是 在 两 个 邻接 单元 之 间 传 输 一 条 信息 的 
时 间 。 

假设 节点 A 有 一 个 发 送 到 节点 C 的 信息 ， 该 信息 必须 通过 节点 B 进行 传递 。 
如 果 节 点 B 是 可 用 的 ， 这 条 信息 首先 从 A 传输 到 B， 然 后 在 B 保存 。 在 信息 被 
完全 传输 后 ， 节 点 B 访问 节点 C， 如 果 节 点 C 可 用 ， 则 将 该 信息 传递 给 节点 C。 
与 其 将 信息 存储 在 节点 B， 还 可 以 用 虫 孔 路 由 5 的 方法 。 当 信息 在 节点 B 被 接 
收 后 ， 信 息 仪 被 暂 存 足够 用 于 解码 头 部 和 决定 目的 地 长 度 。 一 旦 目的 地 被 决定 ， 
这 条 信息 会 被 重新 传输 到 节点 C， 前 提 是 节点 C 是 可 用 的 。 在 节点 B 所 需要 的 缓 
冲 空间 会 大 幅度 缩减 ， 并 且 传 输 的 总 时 间 为 

T =T„(dxh+l/w) 


wormhole 











HH, h= [H/w]。 

例 5.4 在 一 个 4x4 PH, (k, d) = (4,，2) ， 并 且 假定 Tu =1, h=1, l= 
256, w=64, W Tu = (2+4) 个 周期 =6 个 周期 。 

一 旦 头 部 在 一 个 中 间 的 节点 被 解码 ， 这 个 节点 可 以 决定 这 个 信息 是 要 向 那个 
节点 发 送 的 。 这 个 中 间 节 点 选择 一 个 到 目的 节点 最 小 距离 的 通路 。 如 果 多 个 通路 
具有 相同 的 长 度 ， 则 中 间 节 点 会 选择 当前 不 阻塞 或 可 用 的 那个 通路 。 


5.6.2 动态 网 络 


一 个 基本 的 动态 间接 交换 网 络 如 图 5. 16 所 示 。 
一 般 而 言 ， 动 态 网 络 中 的 基本 元 素 是 交叉 开关 ( 见 图 5. 17) 。 
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图 5.16 一 个 基本 的 动态 间接 交换 网 络 
a) 一 个 集中 式 的 交换 网 络 ( 它 与 处 理 器 分 离 ) b) 一 个 分 布 程度 更 大 的 网 络 


c=0 


a) 
c=1 
Ten - 
b) 


图 5.17 交叉 开关 
a) 一 个 2 x2 的 具有 控制 信号 e 的 交叉 开关 b) 它 可 以 生成 kxk 的 交叉 开关 


交叉 开关 将 上 个 点 与 男 外 上 个 点 相连 接 。 只 要 任意 两 条 信息 没有 相同 的 目的 
地 ， 多 个 信息 就 可 以 并 行 地 穿 过 交叉 开关 。 交 叉 开关 的 费用 以 nv? 的 形式 增长 ， 
因此 对 于 大 网 络 ， 使 用 交叉 开关 费用 过 高 。 为 了 控制 交换 器 的 开销 ， 可 以 使 用 一 
个 小 的 交叉 开关 作为 多 级 网 络 的 基础 ， 这 种 方法 常 被 称 为 多 级 互联 网 络 〈Multi- 


stage Interconnection Network, MIN) [a56] 
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有 很 多 种 类 的 MIN， 包 括 基 线 、Benes Clos, Omega!’ 和 Banyan 网 络 。 基 
线 网 络 是 最 简单 的 ， 如 图 5. 18 所 示 。 
源 


000 
001 


010 
011 


100 
101 


110 
111 





图 5. 18 基线 动态 网 络 拓扑 结构 


头 部 信息 可 以 引起 连续 级 的 交换 ， 从 而 正确 的 连接 通路 可 以 在 两 个 节点 之 间 
建立 。 例 如 ， 考 虑 一 个 M，N 网 络 的 确定 的 布线 算法 。 假 定 节点 011 向 目的 节点 
110 发 送 一 条 信息 。 交 换 器 从 1、1 和 0 输出 ， 从 而 使 信息 达到 110 目的 节点 ， 通 
过 设置 控制 信号 <， 无 论 上 部 的 “0” 或 者 底部 的 “1”， 都 可 以 被 交换 器 选择 。 
相似 的 ， 返 回 通路 是 011 。 两 个 节点 之 间 的 阶段 数 为 

阶 数 = [ log, N] 
AF, 下 为 到 达 交 叉 开 关 元 素 (kxk) 的 输入 数量 。 因 此 ， 一 位 宽度 的 通路 所 需 
的 (kxk) 交换 器 的 总 数 为 


A x [ogy V1 


其 他 动态 网 络 在 信息 带宽 的 实现 ， 信 息 延 迟 和 容错 方面 做 出 了 不 同 的 权衡 。 
表 5.5 给 出 了 一 些 常见 动态 网 络 的 特点 。 


表 5.5 一 些 常见 动态 网 络 的 特点 (使 用 k xk 交换 器 交换 N 输入 xN 输出 ) 


















延迟 阶段 (单元 中 的 开销 估计 
Delta, O z 












2N 
=, log.) 





4N 
ee log, NV] 
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5.7 一 些 NoC 交换 的 例子 


5.7.1 直接 网 络 的 一 个 二 维 网 格 的 实例 


通过 将 用 户 的 IP 核 用 直接 互联 网 络 连接 起 来 ， 数 据 传输 被 分 布 在 整个 NoC 
中 。 数 据 传输 的 瓶颈 被 避免 ， 因 为 在 节点 之 间 有 很 多 条 通路 ， 并 且 数 据 传输 可 以 
同时 进行 。Xfabric 方式 利用 一 个 二 维 网 格 直接 网 络 ， 将 用 户 的 核心 在 Xilinx FP- 
GA 上 连接 起 来 ， 如 图 5. 19'” 所 示 。 拥 有 一 个 到 四 个 通信 端口 的 数据 处 理 核 通 
过 一 个 交换 组 件 网 络 被 连接 起 来 〈 图 中 灰色 部 分 ) 。 这 些 数据 路 由 连接 自主 地 管 
理 了 系统 多 个 用 户 核 之 间 的 数据 流 。 多 个 连接 的 实例 组 成 了 直接 二 维 网 格 网 络 ， 
它 可 以 互联 1024 个 单 端口 核心 。 在 交换 组 件 之 间 的 水 平和 垂直 数据 传输 链 路 使 
得 核 之 间 的 数据 通信 更 加 高 效 。 


全 局 全 局 全 局 
本 地 





全 局 i 全 局 互 连 全 局 


图 5.19 通过 交换 组 件 以 Xfabric 方式 连接 数据 处 理 器 !9] 
( 它 是 使 用 二 维 网 格 拓扑 结构 的 直接 交换 网 络 ) 





图 5. 20 给 出 了 交换 组 件 原理 图 。 每 个 交换 器 有 四 个 本 地 端口 ( LPORTO ~ 
LPORT3) 和 四 个 全 局 端口 (GPORTO ~ GPORT3) 组 成 。 用 户 核 通过 本 地 端口 
来 发 送 48 位 字 和 接收 32 位 字 ，16 位 的 全 局 端口 用 于 将 数据 路 由 到 邻近 的 交 
换 器 。 
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本 地 数据 送出 全 局 数据 送出 ”全 局 数据 进入 本 地 数据 送出 





全 局 数据 送出 ”全 局 数据 进入 
图 5.20 交换 组 件 的 原理 图 '®] 


每 个 交换 组 件 都 具有 路 由 和 仲裁 的 功能 ， 它 可 以 将 多 个 并 行 数据 流 在 数据 源 
单元 和 目的 单元 之 间 以 最 小 的 延迟 传送 ， 因 此 避免 了 基于 总 线 的 系统 中 的 传输 
瓶颈 。 


5.7.2 同步 SoC 的 异步 交叉 互联 (动态 网 络 ) 


用 于 SoC 应 用 的 另 一 个 NoC 是 美国 Fulerum 公司 设计 的 PivotPoint Ry! 。 
这 个 系统 的 中 心 是 Nexus 交叉 开关 ( 见 图 5. 14) ， 它 的 数据 吞吐 率 为 1.6Tb/s。 - 
Nexus 使 用 时 钟 不 敏感 的 异步 电路 。 它 在 设计 风格 上 具有 优势 ， 包 括 程 序 的 自 适 
应 技术 、 环 境 的 多 变性 和 较 低 的 系统 功 耗 。 对 多 时 钟 域 核 互联 的 需求 是 选择 异步 
设计 风格 的 原因 。 蜡 步 核 心 可 以 在 不 同 的 时 钟 频率 下 工作 ， 并 且 具 有 各 自 独立 的 
相位 。 在 同步 核心 和 异步 交换 矩阵 之 间 需 要 时 钟 域 交换 器 进行 接口 连接 。 由 于 交 
又 开关 不 使 用 时 钟 信 号 ， 综 合 不 同 的 时 钟 域 不 需要 额外 的 开销 。 这 样 ， 系 统 是 全 
局 异步 的 ， 但 在 本 地 是 同步 的 ， 这 被 称 作 GALS 系统 。 

在 Nexus 上 的 数据 传输 通过 突 发 来 完成 。 每 次 突 发 包含 数量 可 变 的 数据 字 ， 
突 发 通过 一 个 尾部 信号 来 结束 。 一 个 4 位 的 控制 信号 被 用 于 表示 目的 通道 
(TO) ， 它 在 突 发 离开 交换 器 时 变 为 源 通道 。Nexus 上 的 突 发 格式 如 图 5. 21 所 示 。 
突 发 通过 交换 器 自动 路 由 ， 并 且 它 不 能 中 断 、 分 段 或 者 复 用 。 
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目的 地 


控制 
a dL lol lm 


图 5.21 Nexus 上 的 突 发 格式 


交换 器 在 物理 链 路 上 为 突 发 提供 通路 ， 通 路 在 突 发 的 第 一 个 字 进 入 交换 器 时 


被 创建 ， 在 最 后 一 个 字 离 开交 换 器 时 被 关闭 。 
5.7.3 ”阻塞 与 不 阻塞 比较 


Nexus 和 PivotPoint 被 设计 用 于 避免 队 头 (Head Of Line, HOL) 阻塞 。 当 一 
个 信息 包 不 能 被 传递 而 导致 后 面 的 不 相关 信息 包 阻 塞 时 ， 就 会 导致 HOL 阻塞 发 
生 。PivotPoint 使 用 虚拟 通道 (也 称 作 端口 ) 同时 传输 分 开 的 信息 流 。 被 阻塞 的 
信息 包 仅 阻挡 同一 通道 中 之 后 的 信息 包 。 其 他 通道 的 信息 包 可 以 自由 前 进 。 这 


样 ， 通 信 的 停顿 被 减 到 最 小 。 


5.8 分 层 结构 和 网 络 接口 单元 


网 络 接口 单元 是 NoC 中 的 关键 组 件 ， 因 为 它 可 以 解决 一 系列 传统 的 基于 总 


线 的 方法 5 的 限制 。 尽 管 之 前 讨论 的 总 线 标准 提供 
了 一 定 程度 上 的 IP 核 的 便携 性 和 可 重用 性 ， 它 们 很 
难 调整 为 高 级 的 程序 和 总 线 接口 技术 。 总 线 的 基本 
缺点 是 它们 不 使 用 分 层 的 方法 来 进行 互联 。 在 应 用 
层 的 事务 通信 级 和 物理 层 的 信和 号 互联 之 间 没 有 明显 
的 分 离 。 相 反 ， 在 NoC 系统 中 的 活动 通常 被 分 离 成 
事务 层 、 传 输 层 和 物理 层 ， 如 图 5. 22 所 示 。 因 此 ， 
NoC 系统 可 以 很 好 地 适应 高 级 程序 技术 和 高 级 系统 
结构 的 快速 发 展 。 





物理 层 
线路 /通路 /逻辑 


图 5.22 NoC H= Bey 
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图 5.23 显示 了 一 个 通常 的 片上 i 
互联 网 络 ， 它 由 一 些 模块 组 成 ， 如 处 | 
理 器 ， 内 存 和 了 模块 。 这 些 模块 被 连 
接 到 网 络 上 ， 网 络 可 以 建立 模块 之 间 
数据 传输 的 通路 。 模 块 之 间 的 所 有 通 
信 通 过 网 络 进行 ， 并 且 网 络 逻 辑 的 面 四 
积 使 用 减少 为 6. 6% 5 。 这 种 NoC 结 
构 的 重要 特点 是 : (1) 分 层 结构 可 以 
很 容易 的 升级 ; (2) 灵活 的 交换 拓扑 
结构 可 以 被 用 户 设置 ， 从 而 优化 性 能 四 a 
和 适用 于 不 同 的 应 用 ; (3) 点 对 点 通 ae 
eA wR EHH ida EEE 


5.8.1 NoC 的 分 层 结构 


大 多 数 的 NoC 结构 采用 一 个 三 层 的 通信 结构 ， 如 图 5. 22 所 示 。 物 理 层 定义 
了 信息 包 如 何在 物理 接口 传输 。 程 序 技术 、 互 联 交换 结构 和 时 钟 频率 的 任何 改变 
都 会 影响 到 这 个 层 。 更 往 上 的 层 则 不 会 受到 影响 。 

传输 层 定义 了 信息 包 如 何在 交换 网 络 上 路 由 。 信 息 包 中 头 部 的 一 个 小 部 分 被 
用 来 指明 路 由 如 何 完 成 。 事 务 层 定义 了 用 于 将 IP 模块 连接 到 网 络 的 原始 通信 。 
NoC 接口 单元 (NoC Interface Unit, NIU) 向 IP 模块 提供 了 事务 层 的 服务 ， 以 保 
证 信息 在 NoC 接口 之 间 的 交换 ， 从 而 实现 了 一 个 特定 的 事务 ( 见 图 5.24)。 

NoC 的 层次 结构 有 如 下 好 处 : 源 

1. 物理 层 和 传输 层 可 以 被 分 开 优 
化 。 物 理 层 被 程序 技术 所 支配 ， 事 务 层 
则 依赖 特定 的 应 用 。 分 层 的 方法 允许 它 
们 在 互 不 影响 的 情况 下 分 开 优化 。 

2. 固有 的 可 升级 性 。NoC 中 一 个 正 
确 设计 的 交换 结构 可 以 被 升级 ， 以 解决 
任何 数量 的 并 行事 务 。 该 结构 的 天 然 分 
布 性 允许 交换 器 进行 优化 ， 以 适应 需 
求 。 同 时 ,负责 事务 层 的 NU 经 过 设 
计 ， 可 以 满足 IP 模块 性 能 的 需求 ， 使 
得 IP 核 不 用 在 配置 和 交换 结构 的 性 能 线路 ， 逻 辑 
上 花费 精力 。 图 5.24 NoC 的 事务 层 、 传 输 层 和 物理 层 '” 
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3. 更 好 的 控制 优质 服务 。 在 传输 层 定义 的 规则 可 以 用 于 区 分 时 间 敏 感 的 和 
尽力 型 的 传输 。 信 息 包 的 优先 阵列 帮助 实现 优质 服务 的 需求 ， 以 在 严格 的 模块 上 
实现 实时 性 。 

4. 灵活 的 吞吐 量 。 通 过 分 布 多 个 物理 传输 链 路 ， 能 够 增加 吞吐 量 ， 以 适应 
系统 静态 或 动态 的 需求 。 

5. 多 时 钟 域 操作 。 由 于 时 钟 的 概念 只 针对 物理 层 而 不 针对 传输 层 和 事务 层 ， 
特别 的 ，NoC 适用 于 包含 运行 在 不 同时 钟 频率 下 的 IP 模块 的 SoC。 在 物理 层 使 
用 合适 的 时 钟 同步 电路 ， 有 单独 时 钟 域 的 模块 可 以 结合 在 一 起 ， 从 而 减少 时 序 收 
敛 的 问题 。 


5.8.2 NoC 和 NIU 的 实例 


对 于 5.7.2 节 中 的 Nexus 交换 器 ，NIU 实现 了 PivotPoint 系统 结构 ， 它 利用 
Nexus 交叉 开关 连接 节点 。 图 5.25 给 出 了 一 个 简单 的 PivotPoint 结构 。 除 了 Nex- 
us 交叉 开关 外 ，FIFO 缓冲 器 为 传送 (TX) 和 接收 (RX) 通道 提供 了 数据 缓冲 
功能 。 系 统 信 息 包 接口 (SPI-4. 2， 图 中 简化 为 SPI-4) 为 片 对 片 通信 实现 了 一 个 
标准 的 协议 ， 协 议 的 数据 速率 为 9.9 ~16Gb/s。 


ma 16KB 

缓冲 器 

16KB 
po 缓冲 器 








16KB bal 4 
缓冲 器 


16KB 
缓冲 器 Pl 
SPI-4 16KB 16KB SPI-4 
中 缓冲 器 缓冲 器 
16KB 16KB | 表 
缓冲 器 缓冲 器 SPI-4 


图 5.25 一 个 简单 的 PivotPoint 结构 '*] 


Nexus 


交换 器 


— 








5.8.3 25 NoC 比较 
与 总 线 相 比 ，NoC 并 不 是 没有 缺点 。 也 许 NoC 最 大 的 一 个 缺点 是 它 带 来 的 
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额外 的 延 时 。 不 像 依靠 带宽 和 吞吐 量 来 决定 服务 质量 的 数据 通信 网 络 ，Soc 应 用 
常 还 有 非常 严谨 的 延 时 限制 。 再 者 ，NIU 和 交换 结构 增加 了 系统 面积 。 因 此 ， 
SoC 中 传统 网 络 结构 的 直接 实现 常 带 来 不 可 接受 的 面积 和 延迟 开销 。 表 5.6 给 出 
了 总 线 和 NoC 的 对 比 ， 给 出 了 它们 在 SoC 互联 质量 的 优点 与 缺点 。 

表 5.6 总 线 与 NoC xt! 
总 线 的 优 缺 点 NoC 的 优 缺 点 


仅 点 对 点 单一 通路 线路 被 用 于 所 有 大 小 的 网 络 
(+) 


由 于 网 络 协 议 是 全 局 异步 的 ， 网 络 线路 可 以 被 





每 一 个 单元 会 附加 寄生 电容 ( - ) 





总 线 时 序 分 析 在 深 亚 微米 工艺 上 比较 困难 (-) 管道 化 (+) 

总 线 测试 困难 并 且 较 慢 ( -) 内 建 自我 检测 (Buil In Self Test，BIST) 快速 并 

且 完 整 (+) 

总 线 仲裁 延 时 随 着 主 设备 的 增加 而 增加 。 仲 裁 | ”路 由 决策 是 分 布 式 的 ， 相 同 的 路 由 器 被 所 有 大 
器 要 根据 具体 事例 确定 ( - ) 小 的 网 络 使 用 (+) 

带宽 被 附加 的 单元 所 限制 并 且 共 享 ( - ) 聚集 带宽 按 网 络 大 小 规模 计算 ( + ) 

一 旦 仲裁 器 被 授予 控制 权 ， 总 线 延 迟 为 零 (+ ) 内 部 网 络 竞争 造成 一 个 小 延迟 ( - ) 

对 于 小 系统 总 线 的 硅 开 销 较 小 (+) 网 络 具 有 较 大 的 硅 面积 ( - ) 

任何 总 线 几乎 直接 与 大 多 数 可 用 的 IPRA, | 。 面向 总 线 的 卫 需要 灵活 的 封装 。 在 多 处 理 器 系 
包括 运行 在 CPU 上 的 软件 (+) 统 中 ， 软 件 需要 同步 清理 ( - ) 
概念 简单 易 懂 ( + ) 系统 设计 者 需要 重新 学 习 新 概念 ( - ) 


5.9 互联 网 络 评估 

已 经 有 很 多 关于 不 同 网 络 配置 优点 比较 的 分 析 "*“” 。 下 面 用 一 个 简单 分 
析 模 型 来 评估 互联 网 络 。 
5.9.1 静态 网 络 与 动态 网 络 比较 


本 节 很 大 程度 上 是 依据 Agarwal 在 网 络 性 能 上 的 工作 ， 得 出 结论 。 
动态 网 络 假定 有 一 个 由 上 xi 交换 器 组 成 的 具有 虫 孔 路 由 的 动态 间接 网 


络 。 假 定 这 个 网 络 有 级 ， 通 道 位 宽 RS 

为 w， 信 息 长 度 为 1 位 。 在 间接 网 络 Ph abe 
中 ， 假 定 第 一 个 网 络 通路 地 址 在 信息 

离开 节点 之 前 的 一 个 周期 中 传输 ， 因 

此 建立 互联 只 有 1 个 周期 的 开销 ， 如 一 


图 5. 26 所 示 。 图 5. 26 信息 从 节点 到 交换 器 的 传递 
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假定 交换 器 有 单元 延迟 (7, 为 1 个 周期 )， 在 没有 竞争 的 情况 下 ,信息 在 网 
络 中 传输 的 总 时 间 为 
T, =(n + 二 + 个 周期 
在 后 续 的 分 析 中 假定 m + 1/w>1, AA 
T= (n+ 二 | 个 周期 
在 阻塞 的 动态 网 络 中 ， 每 个 网 络 交 换 器 都 有 一 个 缓冲 器 。 如 果 一 个 阻塞 被 检 
测 到 ， 在 这 个 节点 就 会 产生 一 个 队列 ; 所 以 ,NN 个 单元 每 一 个 都 需要 网 络 的 服 
务 ， 单 元 占有 率 为 p。 由 于 在 每 个 网 络 级 的 连接 线 数量 是 一 样 的 ， 所 以 每 个 网 络 
级 所 期 望 的 占有 率 为 p。 在 每 个 交换 器 上 ， 信 息 的 传输 需要 一 个 等 待 时 间 。 
Kruskal 和 Snir05] 已 经 给 出 了 这 个 时 间 的 大 小 〈 假 定 7 为 1 个 周期 ， 并 且 时 间 
用 周期 表示 : 


r -e(/w) (1 -1/k) 
”  2(1-p) 
通道 占有 率 为 
1 


p=m 


AF, m 为 一 个 节点 在 1 个 通道 周期 中 产生 请 求 的 可 能 性 。 
信息 传输 的 总 时 间 Ty namic J 
了 


dynamic 


=T,+nT, 
or ae. ee LA TT 

=( +i er 1/k) ) Ta 
BAMA TERA (k, n) 网 络 上 有 相似 的 分 析 。 令 ki 是 信息 传递 一 维 所 


需 的 平均 跳 数 。 对 于 具有 闭 包 的 单 向 网 络 ， 有 局 = FRY, 对 于 双向 网 络 ， = 





E (是 偶数 ) ， 信 息 从 源 单元 传播 到 目的 单元 的 总 时 间 为 
l 
T= (h xn xX ka riia 
继续 假设 7。 为 1 个 周期 ， 并 且 在 1 个 基本 周期 中 完成 剩余 的 计算 。Agarw- 
al 得 出 的 等 待 时 间 (M/6/1) 为 


-在 .生硬 下 n 
ow g 0+ 
信息 到 达 目 的 单元 (h=1) 的 总 传播 时 间 为 
T iaie = T, + nk, T, 


ya 
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k 
=nk, + 二 + 人 zp) + 1/0) 


小 的 k (也 就 是 k= 2,3, 4) 不 能 被 用 于 计算 过 程 。 这 里 有 品 ] 


T -Pp Ll 
” 2(1- Ta 





并 且 p= ma ， 或 


5.9.2 网 络 比较 : 实例 


在 接 下 来 的 实例 中 ， 假 定 mm 为 0.1, m 是 一 个 单元 在 任何 通道 周期 中 需求 服 
务 的 可 能 性 ; = 1, ! = 256, w = 64。 将 4x4 网 格 ( 环 ) 静态 网 络 与 N= 
16, k=4, n=2 的 动态 网 络 和 N=16、k =2 平均 动态 网 络 相 比 较 。 

对 于 动态 网 络 ， 层 级 的 个 数 为 


n =log,16 =4 
通道 占有 率 为 
p=m—=0. 1 x2 =0.4 
没有 竞争 的 信息 传输 时 间 为 


7.=n+ 训 +1 个 周期 =(4 + +1) 个 周期 = 9 个 周期 


等 待 时 间 为 


r, -2e (1-1/6) -0.4(256464) (1 一 172) 网 基 -0.8 个 周期 =0.67 个 周期 
3(1 =p) 2(1 -0.4) 


因此 ， 信 息 传输 总 时 间 为 
和 ee +4(0. 67) ] 个 周期 =11. 68 个 周期 


对 于 静态 网 络 ， 平 均 跳 数 是 = 元 =1， 总 信息 传输 时 间 为 


a x2x1 (FE) ] 个 周期 = 6 个 周期 
由 于 


_mkal 0.1 ¥1 256 aes 人 
= Ow 2x64 ”个 周期 =0.2 个 周 其 


对 于 低 k，7, 为 


p fr Qs .26 
neza apy w Lace -ozy * 64 | 个 周期 =0.5 个 周 
等 待 时 间 为 


第 5 章 互 联 173 


了 ai = T; + nka T, 
=(6+2x0.1x0.5) 个 周期 
=7 个 周期 


5.10 总 结 


互联 子 系统 是 SoC 的 主干 。 系 统 的 性 能 会 被 互联 的 限制 所 压制 。 由 于 它 的 重 
要 性 ， 大 量 的 工作 是 优化 开销 -性 能 的 互联 策略 的 。 

除了 完全 定制 的 设计 ，SoC 有 两 种 差异 明显 的 互联 方法 : 基于 总 线 的 和 NoC 
的 。 然 而 ， 这 些 都 是 可 实现 的 方法 。NoC 可 以 连接 这 样 的 节点 ， 它 们 自己 是 基于 
总 线 的 处 理 器 或 其 他 IP 的 集群 。 

过 去 大 多 数 SoC 主要 是 基于 总 线 的。 被 连接 的 节点 数量 是 很 少 的 (也 许 是 4 
个 或 8 个 全 ) ， 并 且 每 个 节点 仅 由 一 个 全 组 成 。 它 保持 着 一 个 被 测试 过 的 互联 方 
法 ， 这 个 方法 能 够 简单 使 用 。 协 议 标准 和 总 线 封 装 的 使 用 使 得 P 核 集成 的 任务 
具有 更 少 的 错误 风险 。 而 且 ， 大 量 总 线 选 择 允 许 使 用 者 在 复杂 度 、 使 用 方便 性 、 
性 能 和 通用 性 方面 做 出 权衡 。 

随 着 互联 节点 数量 的 增加 ， 基 于 总 线 方法 的 带宽 限制 变 得 更 加 明显 。 交 换 
器 解决 了 带宽 的 限制 ， 但 是 增加 了 额外 的 开销 。 开 销 取 决 于 配置 和 额外 的 延 
迟 。 由 于 交换 器 (无 论 静 态 或 者 动态 ) 被 集成 到 IP 中 ， 能 够 被 很 好 地 支持 ， 
并 且 有 处 理 突 发 事件 的 工具 。 它 们 将 成 为 SoC 互联 的 标准 ， 特 别 是 对 于 高 性 能 
系统 。 

对 基于 总 线 或 交换 的 互联 进行 性 能 建 模 是 SoC 设计 中 很 重要 的 一 部 分 。 如 果 
一 开始 分 析 到 基于 总 线 的 互联 有 低 效 带 宽 和 系统 性 能 ， 就 可 以 选择 基于 交换 的 设 
计 。 初 始 分 析 和 设计 选择 通常 是 基于 分 析 模 型 进行 的 ， 但 是 一 旦 只 有 很 少 的 选 
择 ， 一 个 更 加 全 面 的 仿真 需要 被 用 于 确定 最 后 的 选择 。Soc 的 性 能 取决 于 互联 设 
计 的 配置 和 承载 量 。 

在 NoC 实现 中 ， 网 络 接口 单元 充当 一 个 重要 角色 。 它 具有 相对 较 小 的 开销 ， 
实现 了 互联 的 分 层 。 它 允许 设计 的 重新 构造 ， 并 支持 加 入 新 的 交换 器 进行 扩展 ， 
而 不 影响 SoC 的 上 层 实现 。NoC 使 用 的 增长 促进 了 SoC 的 发 展 。 

在 SoC 互联 中 有 很 多 话题 不 在 本 章 的 讨论 范围 ， 如 片上 通信 协议 的 设计 与 验 
证 的 结合 [%s] 、 自 测 时 间 信 息 包 的 交换 0 、 功 能 模块 化 、NoC 系统 的 验证 和 
AMBA 4 技术 在 重 配置 逻辑 上 的 优化 。 本 章 的 内 容 和 其 他 相关 内 容 ， 如 Pasricha- 
he 和 Dutt"”1 ， 这 里 只 给 出 了 基本 的 介绍 ， 读 者 可 以 根据 这 些 内 容 ， 为 SoC 互联 
的 深入 发 展 做 出 贡献 。 
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5.11 习题 


1. 一 个 独占 分 离 (地 址 加 上 双向 数据 总 线 ) 总 线 是 32 位 + 64 位 位 宽 的 。 
一 个 典型 的 总 线 事务 〈 读 或 写 ) 使 用 32 位 内 存 地 址 ， 紧 接着 有 一 个 128 位 数据 
传输 。 假 设 访 存 时 间 是 12 个 周期 。 

(a) 画 出 读 和 写 的 时 序 图 (假设 没有 竞争 ) 。 

(b) 一 个 事务 的 (数据 ) 总 线 占 有 率 是 多 少 ? 

2. 如 果 四 个 处 理 器 使 用 上 题 中 描述 的 总 线 ， 理 想 情 况 下 (没有 竞争 ) 每 个 
处 理 器 每 20 个 周期 产生 一 个 事务 。 

(a) 给 定 的 总 线 占有 率 为 多 少 ? 

(b) 使 用 没有 重新 提交 的 总 线 模型 ， 实 际 的 占有 率 为 多 少 ? 

(c) 使 用 有 重新 提交 的 总 线 模型 ， 实 际 的 占有 率 为 多 少 ? 

(d) (b) 和 (c) 的 结果 对 系统 性 能 的 影响 是 什么 ? 

3. 查询 目前 使 用 AMBA 总 线 的 产品 的 资料 ; 找到 至 少 三 个 不 同 的 系统 ， 列 
表 显 示 它 们 各 自 的 参数 (AHB 和 APB): 总 线 位 宽 、 带 宽 和 每 条 总 线 的 IP 使 用 
者 数量 的 最 大 值 。 尽 可 能 给 出 详细 的 信息 。 

4. 查询 使 用 CoreConnect 总 线 的 当前 产品 的 资料 ， 找 到 至 少 三 个 不 同 的 系 
统 ， 列 表 显 示 它 们 各 自 的 参数 (PLB 和 OPB): 总 线 位 宽 、 带 宽 和 每 条 总 线 的 卫 
使 用 者 数量 的 最 大 值 。 尽 可 能 给 出 详细 的 信息 。 

5. 讨论 在 将 总 线 封装 从 AMBA 总 线 转换 为 CoreConnect 总 线 时 会 遇 到 的 
问题 。 

6. 一 个 静态 交换 互联 是 4x4 环 面 的 〈 二 维 ) ， 具 有 虫 孔 路 由 。 每 条 通路 是 
双向 的 ， 有 32 条 线路 ; 每 条 线路 的 速率 为 400Mb/s。 对 于 由 8 位 头 部 和 128 位 
“负载 ”组 成 的 信息 ， 那 么 

(a) 信息 从 一 个 节点 传输 到 相 邻 节点 的 期 望 延 迟 〈 用 周期 数 表示 ) 是 多 少 ? 

(b) 节点 之 间 的 平均 距离 和 平均 信息 延迟 是 多 少 〈 用 周期 数 表示 )? 

(c) 如 果 网 络 的 占有 率 为 0.4， 由 于 信息 阻塞 (SH) 造成 的 延 时 是 多 少 ? 

(d) 信息 传输 总 时 间 是 多 少 ? 

7. 一 个 动态 交换 互联 用 于 连接 16 个 节点 ， 它 使 用 一 个 2 x 2 交叉 开关 的 交 
换 网 络 。 在 一 个 2 x2 开关 上 传输 需要 一 个 周期 。 每 条 通路 是 32 线路 双向 通信 
的 ; 每 条 线路 的 速率 是 400Mb/s。 对 于 由 8 位 头 部 和 128 位 “负载 ”组 成 的 信 
息 ， 那 么 

(a) 一 条 信息 从 一 个 节点 传输 到 另 一 个 节点 的 期 望 时 间 是 多 少 ( 用 周期 数 
表示 )? 
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(b) 画 出 这 个 网 络 。 

(c) 如 果 网 络 的 占有 率 为 0.4， 信 息 等 待 时 间 是 多 少 ? 

(d) 信息 传输 的 总 时 间 是 多 少 ? 

8. 交换 网 络 的 二 分 带宽 ， 是 将 网 络 分 为 两 个 相同 部 分 〈 节 点 数 ) 后 ， 通 过 
线路 的 最 大 的 可 用 带宽 。 按 上 述 描述 ， 静 态 网 络 和 动态 网 络 的 二 分 带宽 是 多 少 ? 

9. 查询 资料 ， 找 到 至 少 三 个 不 同 的 NoC 系统 ; 比较 它们 底层 的 交换 器 ( 找 
到 至 少 一 个 动态 和 一 个 静态 的 例子 ) 。 用 表格 显示 详细 信息 。 


第 6 章 定制 与 可 配置 性 


6.1 引言 


为 了 扩大 SoC 的 适用 范围 同时 降低 成 本 ， 可 以 用 一 般 的 可 定制 的 硬件 平台 提 
高 特定 应 用 程序 效率 。 本 章 主 要 讲述 一 些 定制 技术 ， 尤 其 是 基于 可 配置 性 的 定制 
技术 。 这 里 所 说 的 可 配置 性 包括 一 次 可 配置 性 和 可 重复 配置 。 前 者 表示 面向 应 用 
程序 的 芯片 定制 在 制造 之 前 或 之 后 只 进行 一 次 ; 后 者 表示 芯片 的 定制 在 制造 后 还 
可 以 多 次 进行 定制 。 

在 设计 阶段 的 定制 ， 尤 其 是 那些 在 设备 制造 过 程 中 进行 的 定制 ， 通 常 性 能 会 
很 高 ， 但 在 设计 开展 之 后 会 牺牲 一 定 的 灵活 性 。 这 种 后 制造 的 灵活 性 是 通过 具有 
不 同 程度 可 编程 性 的 器 件 来 实现 的 ， 包括 粗 粒 度 可 重 构 结构 (Coarse-Grained 
Reconfigurable Architecture，CGRA) ， 专 用 指令 集 处 理 器 (Application-Specific In- 
struction Processors ，ASIP) ， 细 粒度 FFGA，DSP，GPP。 可 编程 性 与 性 能 之 间 的 
关系 如 图 6. 1 所 示 ， 本 书 第 1 章 已 经 介绍 过 。 


FATAFATA 





低 可 编程 性 高 
图 6.1 可 编程 性 与 性 能 之 间 的 关系 
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与 可 定制 的 ASIC 技术 相 比 ， 结 构 化 的 ASIC 技术 支持 设计 之 前 的 有 限 的 可 
定制 性 。 在 图 6. 1 中 ，ASIP 被 假定 为 在 制造 时 定制 。 当 然 ， 如 果 ASIP 在 FPGA 
中 作为 软件 处 理 器 使 用 ， 那 么 ASIP 可 以 在 编译 时 刻 定制 。 这 种 可 定制 的 ASIP 处 
理 器 将 会 在 6. 8 节 讲 述 。 

有 很 多 定制 SoC 的 方法 ， 本 章 着 重 讲述 以 下 三 种 : 

1. 指令 处 理 器 的 定制 ( 见 6.4 节 和 6.8 节 )， 揭示 了 (a) 处 理 器 族 的 可 用 
性 和 (b) 特定 应 用 程序 处 理 器 的 生产 是 怎样 提供 结构 优化 的 ， 如 VLIW, RE 
化 、 融 合 操作 (fused operation ) ， 以 及 多 线程 等 优化 方式 ， 最 终 满足 性 能 、 面 
积 、 能 源 效率 及 价格 的 需求 。 

2. 可 重 构 架构 的 定制 ( 见 6.5 和 6.6 节 )， 讲 述 细 粒度 可 重 构 功能 单元 
(Functional Unit, FU) 与 相关 的 互联 资源 是 很 通用 的 ， 但 会 导致 很 大 的 开销 ， 
因此 可 以 用 较 多 的 粗 粒度 的 模块 来 减少 这 种 开销 。 

3. 用 于 实现 优化 的 定制 技术 ， 如 特定 实例 设计 ( 见 6.7 节 ) 和 运行 时 重 构 策 
略 ( 见 6.9 节 ) ， 以 及 在 性 能 、 尺 寸 、 功 率 、 资 源 利 用 率 之 间 权 衡 的 评估 方法 。 

其 他 定制 技术 不 会 做 详细 的 介绍 ， 如 基于 多 处 理 器 的 技术 。 这 些 相关 的 技术 
见 6. 10 节 。 


6.2 估算 定制 的 有 效 性 


在 设计 的 过 程 中 ， 对 不 同 的 定制 技术 的 有 效 性 进行 估算 与 比较 很 重要 。 评 估 
的 方法 很 简单 。 对 于 给 定 的 度量 标准 ， 如 延迟 、 面 积 、 功 耗 ， 假设 对 于 设计 的 pB 
(百分比 ) 部 分 a 为 其 改进 系数 。 那 么 这 个 度量 标准 被 提高 了 ， 即 

(1-B) +axB 

这 种 度量 方式 让 人 联想 到 G. Amdahl 对 并 行 处 理 器 的 分 析 。 例 如 ， 在 著名 的 
90: 10 法 则 中 ， 一 个 好 的 提高 速度 的 方法 是 让 10% 的 代码 占据 了 90% 的 执行 时 
间 。 如 果 这 10% 的 代码 执行 速度 提高 大 倍 会 怎么 样 呢 ? 

在 上 面 的 表达 式 中 ，a = 1/k, B =0.9, 得 到 (hk +9)/(10k). i k = 10， 
那么 这 个 执行 时 间 减 少 为 原来 的 19% ， 加 速 比 为 5. 26。 

但 是 ， 如 果 这 些 可 加 速 的 代码 的 执行 时 间 的 所 占 的 比例 从 原来 的 90% 降 到 
60% ， 会 发 现 加 速 比 仅 为 2. 17 倍 ， 几 乎 变 成 原来 的 1/2。 

注意 ， 提 供用 于 有 效 性 估计 的 代码 量 不 影响 上 面 的 结果 ; 而 是 可 定制 部 分 的 
代码 所 执行 时 间 占 总 时 间 的 比例 影响 上 面 的 结果 。 

这 种 方法 可 用 于 很 多 方面 ， 如 考虑 用 嵌 人 式 粗 粒度 模块 定制 细 粒 度 可 重 构架 
构 (后面 将 会 介绍 ) 。 假 设 有 50% 的 细 粒 度 结 构 可 以 被 粗 粒度 块 替换 ， 这 部 分 速 
度 会 提高 三 倍 ， 面 积 使 用 率 会 提高 35 倍 。 可 以 发 现 ， 设 计 比 以 前 快 了 50% ， 总 
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面积 几乎 减少 了 1/2, 

然而 ， 有 一 些 限制 因素 影响 了 可 定制 性 的 实施 。 实 现 可 定制 处 理 器 的 一 些 工 
具 不 能 像 用 于 实现 非 定 制 性 处 理 器 那样 成 熟 ， 如 性 能 分 析 器 和 优化 器 ; Sb, E 
后 兼容 与 验证 也 会 有 困难 。 一 种 解决 方案 是 开发 与 现存 的 非 定制 模块 相 兼 容 的 可 
定制 处 理 器 ， 这 样 在 可 定制 与 非 可 定制 技术 '” 之 间 就 存在 了 互 用 性 。 


6.3 SoC 定制 综述 


定制 是 一 个 为 了 满足 应 用 需求 和 实施 约束 条 件 而 对 设计 进行 优化 的 过 程 。 该 
过 程 可 以 在 设计 或 运行 时 刻 实 现 。 设 计 由 两 个 阶段 组 成 : 制造 阶段 与 编译 阶段 。 
在 制造 阶段 生产 出 来 的 设备 ， 如 果 是 可 配置 的 ， 那 么 制造 阶段 完成 后 ， 它 可 以 由 
编译 或 运行 时 产生 的 程序 实例 化 。 

通常 有 三 种 方式 执行 运算 : 标准 的 指令 处 理 器 、ASIC 及 可 重 构 的 设备 。 

1. 标准 的 指令 处 理 器 ， 像 ARM、AMD 及 Intel 指令 处 理 器 ， 在 定制 的 制造 
阶段 产生 支持 固定 的 指令 集 架构 的 设备 ， 而 在 编译 阶段 为 该 架构 产生 指令 ， 在 运 
行 时 定制 是 指定 位 或 产生 用 于 运行 时 的 合适 代码 。 

2. 对 于 ASIC， 许 多 实现 应 用 程序 功能 的 定制 是 在 制造 阶段 进行 的 。 因 此 定 
制 的 设备 具有 很 高 的 性 能 ， 但 灵活 性 差 。 这 是 因为 如 果 在 制造 前 若 没 有 设计 一 些 
可 扩展 的 功能 ， 那 么 新 功能 将 很 难 添 加 进去 。 结 构 化 的 ASIC， 像 门 阵列 或 者 是 
标准 单元 技术 ， 通 过 限制 用 户 对 芯片 定制 的 选择 (如 对 金属 层 的 选择 ) 减少 了 
设计 工作 量 。 可 一 次 定制 的 反 熔 丝 技术 可 以 用 于 这 个 领域 。 

3. 可 重 构 设备 主要 包括 FFGA、 复 杂 可 编程 逻辑 器 件 (Complex Programma- 
ble Logic Device，CPLD) ， 以 及 含有 支持 定制 指令 的 可 重 构架 构 的 指令 处 理 器 。 
在 定制 的 制造 阶段 会 产生 含有 可 重 构架 构 的 设备 ， 这 种 设备 含有 可 重 构 元 素 ， 元 
素 之 间 通 过 可 重 构 的 互联 资源 进行 连接 。 在 编译 时 刻 ， 配 置信 息 在 设计 的 描述 中 
产生 ， 在 运行 时 使 用 这 些 配置 信息 定制 设备 。 

标准 指令 处 理 器 以 通用 为 目的 。 但 是 ， 也 可 以 定制 用 于 特定 应 用 程序 的 指令 
集 和 架构 。 例 如 ， 标 准 的 指令 集 可 以 通过 去 掉 一 些 不 用 的 指令 或 者 是 添加 一 些 新 
的 指令 来 提高 性 能 。 指 令 处 理 器 的 定制 ， 可 在 ASIC 技术 的 制造 阶段 或 者 在 可 重 
构 硬 件 技术 的 配置 阶段 完成 。 

o 制造 阶段 定制 的 处 理 器 主要 包括 美国 ARC 公司 和 美国 Tensilica 公司 的 处 
理 器 。 通 常 一 些 构件 在 制造 阶段 是 硬 连 线 的 ， 这 是 为 了 支持 特定 域 的 优化 ， 如 为 
特定 应 用 程序 定制 指令 等 。 在 ASIC 技术 中 ， 为 了 减少 风险 ， 通 常 在 设计 实施 之 
前 要 有 可 重 构 的 原型 。 

e 对 于 美国 Xilinx 公司 的 MicroBlaze[25] 或 美国 Altera 公司 的 Nios!!!) 等 软 核 
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处 理 器 ， 挑 战 是 如 何 有 效 地 支持 指令 处 理 器 。 这 些 处 理 器 使 用 像 FPGA 这 样 的 具有 
可 重 构架 构 的 资源 。 可 以 通过 探索 专用 设备 特点 或 者 运行 时 可 配置 性 ， 来 提高 
可 编程 器 件 的 使 用 效率 。 

© 另 一 个 选择 是 用 ASIC 技术 实现 指令 处 理 器 。 这 需要 开发 一 个 合适 的 接 
口 ， 以 使 处 理 器 能 够 使 用 通过 可 重 构 架构 实现 的 定制 指令 。 例 如 Stretch’! 公司 
的 软件 可 配置 处 理 器 ， 它 由 美国 Tensilica 公司 的 Xtensa 指令 处 理 器 及 粗 粒 度 可 
重复 配置 架构 组 成 。 在 应 用 程序 需要 与 它们 的 体系 结构 相 匹 配 的 资源 时 ， 这 些 设 
备 可 以 提供 比 FPGA 更 高 的 效率 。 

考虑 使 用 哪 种 技术 关键 得 看 处 理 器 的 数量 。 回 忆 本 书 第 1 章 的 内 容 ， 产 品 成 
本 包括 一 个 与 处 理 器 数量 无 关 的 固定 成 本 ， 还 包括 因 处 理 器 数量 不 同 而 可 变 的 成 
本 。 像 PFCA 这 样 的 重 构 技 术 只 有 很 少 的 固定 成 本 , 但 比 起 ASIC RA, CAE 
高 的 可 变 成 本 。 因 此 ， 在 处 理 器 的 数量 方面 低 于 某 个 冰 值 时 ， 重 构 技术 的 成 本 最 
低 。 并 且 ， 重 构 技 术 的 这 个 阔 值 会 随 着 时 间 的 推移 而 产生 波动 ， 因 为 封装 成 本 和 
其 他 固定 成 本 会 随 着 新 技术 的 产生 迅速 增加 。 

有 很 多 对 可 定制 SoC 进行 分 类 的 方法 。 一 个 可 定制 的 SoC 通常 包括 一 个 或 多 
个 处 理 器 、 可 重 构 逻辑 及 存储 部 件 。 可 以 根据 可 重 构 逻辑 和 这 种 处 理 器 的 连接 方 
式 对 这 种 SoC 进行 分 类 !%1 。 

图 6. 2a 给 出 了 连接 到 系统 总 线 的 可 重 构 架构 。 图 6. 2b 给 出 了 可 重 构 架构 作为 
CPU 的 一 个 协 处 理 器 的 情况 ， 比 起 图 6. 2a 所 示 架 构 它 与 处 理 器 的 连接 更 近 一 些 。 





图 6.2 ”四 种 定制 Soc!) (阴影 方块 代表 可 重 构 逻 辑 ) 
a) 附加 出 单元 b) 协 处 理 器 
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图 6.2 四 种 定制 SC" (阴影 方块 代表 可 重 构 逻 辑 ) ( 续 ) 
c) 可 重 构 FU d) 嵌入 可 重 构 逻 辑 的 处 理 器 


图 6. 2c 给 出 了 一 个 处 理 器 与 这 种 架构 结合 更 紧密 的 体系 结构 。 这 种 情况 下 ， 
可 重 构 逻辑 作为 处 理 器 的 一 部 分 ， 可 能 会 形成 一 个 可 重 构 的 子 单元 来 支持 定制 指 
So RE Stretch 公司 的 软件 可 配置 处 理 器 就 是 这 样 组 织 的 。 

图 6. 2d 给 出 了 另 一 种 组 织 方式 。 在 这 种 方式 下 ， 处 理 器 内 藤 在 可 编程 架构 
中 。 处 理 器 可 以 是 硬 核 "“' ， 也 可 以 是 软 核 ,通过 可 重 构 逻辑 本 身 的 资源 来 决 
定 。 这 样 的 实例 包括 先前 提 到 的 MicroBlaze 和 Nios 处 理 器 。 

也 可 以 将 可 配置 的 模拟 电路 与 数字 电路 的 功能 整合 在 同一 个 芯片 上 。 例 如 
美国 Cypress 公司 的 可 编程 片上 系统 (Programmable SoC, PSoC) 设备 '“] 有 一 
个 模拟 模块 阵列 ， 它 可 以 配制 成 多 种 部 件 的 组 合 ， 包 括 比较 器 、 过 滤器 、 具 有 
可 编程 互联 结构 的 模 - 数 转 换 器 等 。 这 些 组 件 及 可 重 构 数字 模块 的 LO 可 以 很 
容易 地 连接 到 IO 出 端口 。 并 且 在 运行 时 ， 这 些 模块 可 以 进行 重 构 以 执行 不 同 
的 功能 。 


6.4 定制 指令 处 理 器 


桌面 计算 机 的 微 处 理 器 为 通用 计算 而 设计 。SoC 上 的 指令 处 理 器 通常 是 为 特 
定 类 型 的 计算 而 设计 ， 如 媒体 处 理 或 数据 加 密 。 因 此 可 以 通过 定制 得 到 非常 符合 
特定 意图 的 处 理 器 ， 并 且 消 除 不 需要 的 硬件 部 分 。 尽 管 很 多 技术 可 用 于 软 核 处 理 
器 的 设计 ， 但 这 种 定制 通常 在 制造 之 前 进行 。 这 种 定制 允许 设计 者 在 提高 产品 多 
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样 性 的 同时 ， 优 化 它们 的 设计 以 满足 一 些 需求 ， 如 速度 、 面 积 、 功 耗 和 准确 
性 等 。 


6.4.1 处 理 器 定制 方法 


处 理 器 的 定制 方法 主要 有 两 种 。 第 一 种 方式 是 通过 特定 应 用 程序 域 的 处 理 器 
族 产生 。 例 如 ， 英 国 ARM 公司 提供 的 一 些 处 理 嚣 ， 像 Cortex-A 系列 用 于 支持 需 
要 大 量 计算 的 应 用 程序 ，Cortex-R 系列 用 于 实时 处 理 ，Cortex-M Al A] RAPE RRA 
式 应 用 程序 微 控 制 器 (Cortex-M1 处 理 器 实现 了 FPGA 的 优化 ) SecurCore 系列 
处 理 器 用 于 防 算 改 智能 卡 。 每 一 系列 包含 一 类 不 同 特征 的 处 理 器 ， 人 允许 设计 者 根 
据 自己 在 功能 或 性 能 及 功 耗 等 的 需求 ， 选 择 合适 的 处 理 器 。 

第 二 种 方法 是 提供 能 生成 定制 的 处 理 器 的 工具 。 美 国 ARC 公司 和 美国 Ten- 
silica 公司 生产 了 一 些 设计 工具 ， 人 允许 SoC 设计 师 使 用 图 形 化 用 户 接口 或 者 基于 
体系 结构 描述 语言 来 配置 和 扩展 一 个 处 理 器 。 使 用 这 些 工具 ， 设 计 师 可 以 通过 对 
现 有 的 处 理 器 进行 修改 ， 如 添加 一 些 需要 的 特征 或 删除 不 需要 的 特征 ， 从 而 生产 
目标 处 理 器 。 此 外 ， 设 计 师 还 可 以 通过 添加 定制 指令 来 扩展 内 核 的 体系 结构 ， 从 
而 使 处 理 器 对 最 终 应 用 程序 进一步 优化 。 

为 了 对 尺寸 、 功 耗 、 应 用 程序 性 能 进行 优化 设计 ， 一些 SoC 设计 工具 还 提供 
最 终 的 芯片 面积 和 内 存 需 求 的 说 明 。 设 计 者 可 以 配置 与 处 理 器 内 核 相 关 的 一 些 特 
征 ， 如 缓存 的 类 型 与 大 小 、DSP 子 系统 、 计 时 器 及 调试 组 件 ; 还 可 以 配置 处 理 器 
内 核 的 一 些 内 部 特征 ， 如 内 核 中 寄存 器 的 类 型 与 大 小 、 地 址 宽度 、 指 令 集 选择 
等 。 其 最 终 目 的 是 对 性 能 与 面积 之 间 的 权衡 提供 一 种 优化 方案 。SoC 工具 通常 包 
括 以 下 一 些 具体 功能 : 

。 MARKMAN IP HK. 

e 产生 系统 验证 的 仿真 脚本 与 测试 实例 。 

e 扩展 软件 开发 工具 的 功能 ， 如 支持 定制 处 理 器 的 定制 指令 。 

e 自动 产生 FPGA 设计 的 仿真 平台 。 

。 在 被 授权 的 芯片 规范 中 选择 配置 的 文档 ， 以 及 用 户 级 文档 。 

这 些 工具 通常 可 以 在 几 分 钟 内 配置 和 产生 一 个 定制 的 处 理 器 。 并 且 通 过 产生 
所 需要 配置 的 具体 信息 ， 如 测试 时 所 需要 的 信息 、 下 游 开发 工具 及 开发 文档 的 信 
息 ， 可 以 让 配置 程序 减少 流 片 时 间 ， 降 低 项 目 风险 。 

有 关 定 制 嵌 入 式 处 理 器 的 开发 工具 及 其 应 用 程序 的 更 多 的 信息 ， 都 可 以 在 不 
同 的 文献 资料 中 找到 52 。 


6.4.2 架构 描述 
现代 处 理 器 变 得 越 来 越 复杂 ， 因 此 ， 在 设计 处 理 器 和 与 处 理 器 相关 的 软件 工 
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具 时 ， 提 供 一 定 程度 的 自动 化 很 有 必要 。 没 有 自动 化 ， 对 每 一 个 应 用 ， 设 计 和 验 
证 工作 需要 从 头 构建 一 个 处 理 器 及 其 工具 。 

体系 结构 描述 语言 或 处 理 器 描述 语言 对 于 处 理 器 及 其 工具 的 自动 化 发 展 起 到 
很 大 的 作用 071 。 对 于 设计 者 来 说 ， 这 些 语言 在 应 用 于 不 同 的 应 用 程序 时 应 该 很 
简洁 、 高 效 ; 并 且 用 于 描述 真实 、 有 效 的 设计 时 容易 理解 。 已 经 有 很 多 语言 可 用 
来 描述 指令 处 理 器 。 这 些 语 言 的 目标 是 捕捉 处 理 器 的 设计 以 便 使 处 理 器 和 辅助 工 
具 可 以 自动 产生 。 

体系 结构 描述 语言 可 以 通过 描述 风格 、 描 述 层 次 及 提供 的 自动 化 的 类 型 进行 
分 类 。 例 如 ， 可 以 把 体系 结构 描述 语言 分 成 行为 级 、 结 构 级 ， 或 者 两 者 之 间 的 
结合 。 

行为 级 描述 以 指令 集 为 中 心 : 设计 者 确定 指令 集 ， 然 后 使 用 工具 产生 编译 
器 、 汇 编 器 、 连 接 器 及 仿真 器 。nMLIs] 和 TIE'”*! 语 言 属于 行为 级 描述 语言 的 范 
畴 。 对 于 代码 生成 工具 ， 如 GURGLo] ， 当 指令 可 以 通过 语法 树 描述 时 ， 很 容易 
自动 产生 用 行为 级 描述 语言 实现 的 编译 器 后 端 。 许 多 行为 级 描述 语言 支持 处 理 器 
的 硬件 综合 ， 综 合 工具 可 用 于 上 述 的 实例 。 在 TIE 语言 中 ,综合 被 简化 了 ， 因 为 
所 基于 的 处 理 器 是 固定 的 ， 只 有 扩展 部 分 可 以 由 设计 者 指定 。nML“Go” 工 具 
可 由 指令 集 自动 设计 处 理 器 结构 [sl ， 通 过 显示 的 资源 共享 ， 如 寄存 器 堆 ， 推 断 
出 处 理 器 结构 。 

行为 级 描述 的 主要 优势 在 于 其 高 度 的 抽象 性 : 生成 一 个 定制 的 处 理 器 ， 只 需 
要 一 个 指令 集 规范 。 它 的 主要 缺点 是 ， 硬 件 实现 时 缺乏 灵活 性 。 综 合 工具 必须 保 
TE BUA AEE Hy”) 甚至 是 整个 基础 芯片 24l 的 一 些 特征 不 变 。 当 考虑 到 资源 共 
享 5 时 ， 对 自动 化 设计 来 说 ， 仅 依靠 指令 集 实现 有 效 的 综合 是 很 困难 的 。 

结构 级 描述 可 以 获取 处 理 器 内 部 的 功能 单元 、 存 储 资源 及 互联 资源 。 
PREEI29] 是 一 个 建立 在 C++ 之 上 的 库 ， 它 可 以 通过 结构 描述 产生 FPGA 软件 
处 理 器 。 设 计 者 可 以 删除 一 些 指令 或 者 是 改变 功能 单元 的 实现 方式 ， 因 为 
SPREE 提供 一 种 方法 连接 功能 模块 ， 并 内 部 支持 常见 功能 ， 如 旁 路 网 络 和 互 
锁 等 。 

结构 级 描述 的 主要 优势 是 它 可 以 直接 转化 成 一 种 适 于 综合 成 硬件 的 形式 。 此 
外 ,大 多 数 结构 级 描述 会 保持 硬件 描述 语言 ( Hardware Description Language, 
HDL) 的 原则 。 这 种 原则 有 利于 不 同 的 微 体系 结构 的 描述 ， 如 超标 量 和 多 线程 
等 。 结 构 级 描述 的 主要 缺点 是 抽象 层次 较 低 : 设计 者 需要 手动 地 指定 功能 单元 和 
控制 结构 。 

表 6. 1 给 出 了 一 些 体系 结构 描述 语言 的 特征 。 对 于 每 种 语言 ， 都 有 它 的 描 
述 风 格 ， 描 述 范 围 ( 整个 处 理 器 或 者 仅 是 指令 集 ) 及 自动 产生 处 理 机 系统 的 
工具 。 
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表 6.1 一 些 体系 结构 描述 语言 的 特征 


ae eae 
ae | wi 


= 
V 
=- | 
a 
vw | 


Vv 





一 些 系 统 ， 如 LISA, RAAAMRARBNAARAR AR. AARAA 
合 了 行为 级 描述 和 结构 级 描述 的 优点 ， 但 是 需要 保证 相关 行为 及 结构 元 素 的 一 
致 性 。 

除了 TIE 之 外 的 所 有 语言 都 可 以 用 于 描述 整个 处 理 器 ， 也 就 是 说 可 以 对 整个 
处 理 器 进行 设计 ， 而 不 仅 是 指令 集 。 然 而 ,许多 处 理 器 描述 语言 专 为 一 个 基本 的 
处 理 器 架构 而 设计 ， 如 在 LISA 及 nML 中 的 顺序 执行 。6. 8 节 将 介绍 的 可 定制 的 
线程 结构 (Customizable Threaded Architecture, CUSTARD)!” ， 是 基于 MIPS 指 
令 集 ， 可 以 同时 支持 各 种 定制 选项 ， 如 多 线程 的 类 型 和 定制 指令 的 使 用 等 。 

这 些 语言 需要 使 用 以 下 工具 ': 

。 模型 生成 器 。 这 类 工具 可 以 生成 硬件 原型 和 验证 模型 ， 来 检查 体系 结构 
描述 是 否 符合 需求 。 

© 测试 生成 器 。 这 类 工具 用 于 产生 测试 程序 、 断 言 和 测试 用 例 。 

。 工具 包 生 成 器 。 这 类 工具 用 于 人 分析、 检索、 编译、 仿真、 装配 和 调试 
设计 。 
6. 4.3 自动 识别 定制 指令 


有 多 种 方法 可 以 通过 对 高 级 应 用 程序 的 描述 自动 识别 扩展 指令 集 。 可 以 试探 
性 地 将 一 些 数据 流 图 (Data Flow Graph, DFG) 节点 聚集 成 串 行 或 并 行 模板 。 通 
过 在 子 图 中 加 一 些 VO 约束 来 减少 搜索 空间 的 指数 增长 。 

各 种 各 样 的 体系 结构 优化 方案 (一 些 已 经 在 前 面 的 章节 中 讲 过 ) 有 助 于 自 
动 化 设计 ， 例如" : 

。 VLIW 技术 使 得 一 条 指令 可 以 支持 多 种 独立 的 操作 。VLIW 格式 将 一 个 指 
令 分 成 多 个 字段 ， 每 个 字段 代表 一 个 操作 。 如 果 指 令 集 在 设计 时 使 用 VLIW 技 
术 ， 那 么 源 语言 编译 器 可 以 使 用 软件 流水 和 指令 调度 技术 将 多 个 操作 打包 成 一 个 
单独 的 VLIW 指令 。 

。 建立 对 多 个 数据 元 素 进行 操作 的 矢量 运算 可 以 增加 吞吐 量 。 矢 量 运 算 的 


184 计算 机 系统 设计 : 片上 系统 


特征 由 其 在 每 个 数据 元 素 上 的 操作 和 在 并 行 运算 中 数据 元 素 的 数量 ( 即 矢量 的 
长 度 ) 决定 。 例 如 ， 一 个 宽度 为 四 的 定点 加 法 操作 包括 两 个 输入 矢量 ， 每 个 都 
包含 四 个 整数 ， 并 产生 一 个 结果 为 四 个 整数 的 矢量 。 

。 将 多 个 简单 操作 组 成 一 个 混合 操作 。 一 个 混合 操作 可 能 有 一 个 或 多 个 输 
人 操作 数 是 固定 的 常数 。 使 用 混合 操作 代替 简单 操作 可 以 减少 代码 量 、 控 制 带 
宽 ， 并 可 能 减少 对 寄存 器 堆 端口 数量 的 要 求 。 并 且 ， 混合 操作 的 延迟 可 能 会 低 于 
合并 前 的 简单 操作 的 延迟 之 和 。 

约束 传播 技术 的 应 用 会 产生 有 效 的 计数 算法 。 然 而 这 种 方法 的 使 用 性 仅 限于 
KA 100 个 节点 的 数据 流 图 。 通 过 在 子 图 中 添加 附加 约束 ， 如 只 允许 单个 输出 或 
者 是 连通 性 约束 ， 搜 索 空间 可 以 显著 降低 。 

识别 输入 和 输出 约束 下 的 扩展 指令 集 可 以 归 为 一 个 整数 线性 规划 问题 。Bis- 
was 等 人 [5 基于 VO 约束 提出 了 一 种 对 Kernighan - Lin 启发 式 规则 的 扩展 方法 。 
优化 往往 限于 一 个 近似 搜索 算法 或 者 一 些 人 工 约 束 (如 IO AR) 以 使 对 子 图 
的 枚 举 容易 处 理 。 

整数 线性 规划 可 以 用 实际 的 数据 带宽 约束 及 数据 传输 代价 代替 VO AR. A 
为 产生 的 扩展 指令 集 可 能 会 有 无 限 个 输入 和 输出 。 将 数据 带宽 信息 直接 整合 到 优 
化 进程 中 ,或 者 考虑 数据 在 核心 寄存 器 堆 与 定制 状态 寄存 器 1 之 间 的 传输 代价 ， 
可 以 获得 满意 的 结果 。 含 有 结构 可 见 的 状态 寄存 器 的 基线 机 (baseline machine) 
可 实现 这 种 方法 。 

定制 指令 处 理 器 时 有 很 多 方法 ， 如 技术 感知 方法 。 这 种 方法 包括 一 个 集群 策 
略 ， 可 用 于 评估 基于 FPGA 的 具体 的 定制 指令 查找 表 (Lookup Table, LUT) 的 资 
源 使 用 情况 ， 而 无 需 经 过 整个 综合 过 程 0s] 。 再 如 应 用 程序 感知 方法 ， 在 视频 应 用 
程序 中 时 ， 可 以 利用 合适 的 中 间 表 示 和 循环 的 并 行 性 "&%] 。 还 有 转化 感知 方法 可 以 
采用 基于 组 合 但 逐步 搜索 源 代码 转化 设计 空间 和 指令 集 扩 展 设 计 空间 的 
方法 082] 


6.5 重 构 技术 


在 各 种 重 构 技 术 中 ，FPGA 是 最 常见 的 。 为 了 支持 高 性 能 设计 ， 它 的 容量 和 
性 能 在 过 去 的 几 年 里 得 到 了 迅速 的 改善 。FPGA 低 成 本 和 支持 快速 开发 的 特点 使 
得 它 成 为 了 一 些 设计 的 理想 平台 ,能 满足 对 快速 上 市 有 需求 的 项 目 ， 如 教育 和 学 
生 项 目 。 

下 面 介绍 支持 FPGA 及 其 他 可 重 构 设备 的 可 重 构 逻 辑 。 可 重 构 逻辑 由 一 组 可 
重 构 的 功能 单元 、 可 重 构 互联 资源 ， 以 及 一 个 连接 系统 其 他 逻辑 的 灵活 接口 组 
成 。 下 面 将 介绍 每 个 组 件 ， 并 展示 它们 在 工业 及 学 术 上 的 可 重 构 系统 中 的 使 用 方 
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法 。 这 里 使 用 的 方法 是 Todman 等 人 “” 提 出 的 。 

对 逻辑 中 的 每 个 组 件 ， 都 要 在 性 能 与 灵活 性 之 间 进 行 权衡 。 一 个 灵活 性 高 的 
架构 通常 较 大 ， 并 且 比 灵活 性 低 的 架构 慢 。 但 灵活 性 较 高 的 结构 能 更 好 地 适应 应 
用 程序 的 需求 。 这 种 灵活 性 与 性 能 之 间 的 权衡 会 影响 可 重 构 系 统 的 设计 。 表 6. 2 
给 出 了 可 重 构 结 构 和 设备 的 比较 。 由 于 篇 幅 有 限 ， 一 些 相 关 的 设备 〈 如 英国 El- 
ixent 公司 “的 设备 ) 没有 包含 在 内 。 


6.2 可 重 构 结构 和 设备 的 比较 





结构 或 设备 粒 特 ”点 
Actel Axcelera- 熔 丝 ， 低 功 耗 
tor[2] 
Actel ICGLOOG] , ee 横向 和 纵向 ATA ER 
ProASIC[4,5] 路 由 
Altera Stratix DSP 模块 ，1.6 ~ 





亚 05] ，Stratix 8. 5Gb/s VO, 可 编 
i 程 能 力 
Xilinx Virtex I een eee Med gos ed 
[262] : i 不 A A . , Power! 
pa , Virtex 路 由 18Kbit 块 405 处 理 器 3.1 ~ 
6. 5Gb/s IO 





Xilinx Virtex 六 输入 或 者 | ”横向 和 纵向 DSP, 6.5Gb/s 1/0 
个 
50264] ，Virtex 6[265] i as 路 由 a PowerPC 440 处 理 器 


SiliconBlue = AF 横向 和 纵向 4Kbit H oon 内 置 
iCE65 219! 路 由 


pea ALU, BARE, 75 个 功能 单元 ，95 
Silicon Hi 
Mare 累加 器 ， 乘 法 |。 总 线 | TEFEN H, 
ee 器 OFDM 无 线 应 用 程序 


YE: OFDM, Orthogonal Frequency-Division Multiplexing， 正 交 频 分 复 用 。 





6. 5.1 可 重 构 的 功能 单元 


可 重 构 FU 可 以 是 粗 粒度 的 ， 也 可 以 是 细 粒 度 的 。 细 粒度 FU 通常 可 以 用 一 
位 或 几 位 实现 一 个 功能 。 常 见 的 细 粒 度 FU 都 是 些小 的 LUT， 可 用 于 实现 大 多 数 
工业 FPGA 中 的 逻辑 。 而 粗 粒 度 的 FU， 通常 比较 大 ， 可 能 由 算术 单元 和 逮 辑 单 
元 (Arithmetic and Logic Unit，ALU) 甚至 是 较 大 的 存储 空间 组 成 。 本 节 将 更 详 
细 地 描述 这 两 种 功能 单元 。 
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许多 可 重 构 系统 使 用 工业 FPGA 作为 可 重 构 逻 辑 载体 。 这 些 工 业 FPGA 包含 三 ~ 
六 个 输入 LUT, 每 个 LUT 都 可 以 看 成 一 个 细 粒 度 的 FU。 图 6. 3a 给 出 了 一 个 三 输入 
LUT。 通 过 移 位 ， 该 功能 单元 可 以 实现 任何 一 种 多 达 三 输入 的 功能 。 显 然 ，LUT 
的 扩展 需要 更 多 的 输入 。 通 常 LUT 要 结合 成 簇 ， 如 图 6. 3b 所 示 。 图 6. 4 给 出 了 
商业 体系 结构 的 逻辑 块 ， 是 在 两 个 流行 的 FPGA 系列 中 的 艇 。 图 6. 4a 所 示 的 Al- 
tera LAB Æ Altera Stratix 设备 的 一 个 簇 ; 美国 Altera 公司 把 这 些 簇 称 为 逻辑 块 阵 
列 (Logic Array Block，LAB)"。 图 6.4b 所 示 的 Xilinx CLB Æ Xilinx 结构 "的 
一 个 簇 ; Xilinx LEMMA “ABBR” (Configurable Logic Block, CLB), 





图 6.3 SUR RE Ry ety FUP 
a) 三 输入 LUT b) LUT RR 
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在 图 6. 4a 中 ， 每 个 标 为 “LE” 的 块 只 表示 一 个 LUT; 而 在 图 6. 4b 中 ， 每 个 标 
为 “ 片 (Slice)” 的 块 表示 两 个 LUT。 
通用 线路 通用 线路 






指向 右 端的 LAB 


来 自 右 端的 LAB 指向 右 端 的 LAB 


来 自 右 端的 LAB 


a) 





CIN 
b) 


图 6.4 商业 体系 结构 的 逻辑 块 
a) Altera LAB!4] b) Xilinx CLB!262J 


包含 LUT 的 可 重 构 逻 辑 是 灵活 的 ， 它 可 以 用 来 实现 任何 数字 电路 。 然 而 ， 
与 下 面 要 描述 的 粗 粒 度 架 构 相 比 ， 这 些 细 粒 度 的 架构 面积 较 大 、 延 迟 较 长 、 功 耗 
较 高 。 考 虑 到 这 些 结构 通常 用 于 计算 ，FPGA 厂商 添加 了 一 些 额 外 的 特征 ， 如 进 
位 链 和 传递 链 ， 从 而 可 以 减少 实现 常见 的 算术 与 逻辑 运算 时 的 开销 。 
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虽然 通过 添加 对 常见 功能 的 架构 支持 ， 工 业 FPGA 的 效率 得 到 了 提高 ， 甚 至 
可 以 更 高 、 艇 人 得 更 大 ， 但 这 些 FU 的 灵活 性 与 可 重 构 性 较 差 。 这 里 有 两 种 包含 
粗 粒度 FU 的 设备 。 

第 一 ， 通 过 加 入 粗 粒度 模块 ， 许 多 主要 由 细 粒 度 FU 组 成 的 商业 FPGA， 变 得 
日 益 强大 。 例 如 ， 早 期 的 Xilinx Virtes 器 件 包含 18 x 18 位 的 嵌 人 式 乘 法 单元 C21 。 
在 实现 需要 大 量 乘法 运算 的 算法 时 ， 这 些 租 人 的 单元 可 显著 改善 密度 、 速 度 和 功 
耗 。 但 是 对 不 需要 执行 乘法 的 算法 ， 这 些 模块 很 少 用 到 。 美 国 Altera 公司 的 Stratix 
系列 设备 包含 更 大 、 更 灵活 的 嵌入 式 粗 粒 度 块 ， 即 DSP 块 ， 它 可 以 实现 加 法 和 乘 
法 操作 。 通 过 对 比 这 两 个 器 件 的 灵活 性 与 开销 可 知 ， 美 国 Altera 公司 的 DSP 块 比 
美国 Xilinx 公司 的 乘法 器 更 灵活 ， 但 占用 的 芯片 面积 较 大 ， 并 且 运 行 乘法 任务 时 较 
慢 。 最 新 的 美国 Xilinx 公司 的 设备 包含 更 复杂 的 散人 单元， 叫 DSP48。 应 该 注意 ， 
这 些 嵌 入 块 虽然 能 消除 内 部 的 可 重 构 互联 ， 但 相对 固定 的 位 置 会 导致 线路 拥堵 和 
线路 开销 。 而 且 ， 对 于 不 使 用 这 些 租 人 块 的 应 用 程序 来 说 也 会 产生 开销 。 

第 二 ,虽然 上 面 描述 的 商用 处 理 器 既 包 括 细 粒度 块 又 包括 粗 粒 度 块 ， 但 还 有 
一 些 器 件 只 包含 粗 粒 度 块 。 粗 粒度 结构 如 ADRES 结构 ， 如 图 6. 5070 所 示 。 在 这 
种 器 件 中 ， 每 个 可 重 构 FU 包含 一 个 32 位 的 算术 逻辑 单元 ， 通 过 重 构 可 以 用 两 


个 小 的 寄存 器 堆 实现 加 法 、 乘 法 及 逻辑 运算 中 的 任何 一 种 运算 。 显 然 ， 这 种 FU 
输入 32 位 输入 32 位 输入 





Srcl és 


功能 单元 


Pred_out Result, ; 


1 位 预测 ”32 位 结果 
图 6.5 ADRES 可 重 构 FU"" (Pred 是 一 位 控制 位 ， 它 控制 功能 单元 选择 Srel 还 是 Src2) 
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没有 前 面 描述 的 细 粒 度 FU 灵活 ; 但 是 ， 如 果 应 用 程序 需要 的 功能 与 ALU 的 功能 
相 匹配 ， 在 这 种 体系 结构 中 ， 这 些 功 能 可 以 高 效 地 实现 。 


6.5.2 ” 重 构 互联 


不 管 一 个 器 件 含有 细 粒 度 FU 还 是 粗 粒度 FU， 或 者 是 两 者 的 结合 ，FU 之 间 
的 连接 都 要 很 灵活 。 因 此 ， 在 体系 结构 中 需要 考虑 互联 的 灵活 性 与 速度 、 面 积 、 
功 耗 之 间 的 权衡 问题 。 

可 重 构 互联 体系 结构 可 分 为 粗 粒 度 结 构 和 细 粒 度 结构 。 这 两 种 结构 是 基于 线 
路 间 切 换 的 粒度 进行 划分 的 。 图 6.6 所 示 的 结构 ， 是 两 个 总 线 之 间 的 一 种 灵活 的 
互联 方式 。 在 图 6. 6a 所 示 的 细 粒 度 结构 中 ， 可 以 独立 地 切换 每 根 线 ; 而 在 图 
6. 6b 中 ， 整 个 总 线 作 为 一 个 单元 进行 切换 。 图 6. 6a 所 示 的 细 粒 度 路 由 结构 更 灵 
活 一 些 ， 因 为 每 位 不 必 都 按 相 同 的 方式 路 由 ; 图 6. Ob 所 示 的 粗 粒度 结构 包含 的 
编程 位 较 少 ， 但 功 耗 较 低 。 

加 配置 位 





a) b) 


图 6.6 路 由 结构 
a) 细 粒 度 b) 粗 粒度 


细 粒 度 路 由 结构 通常 用 于 工业 FPGA 设备 中 。 在 这 些 设备 中 ， 多 个 FU 通常 
组 织 成 网 格 模式 ， 并 且 使 用 水 平和 垂直 通道 进行 连接 。 已 经 有 很 多 关于 互联 的 拓 
扑 结构 优化 问题 的 研究 "1 。 

粗 粒 度 路 由 结构 通常 用 在 包含 粗 粒 度 功 能 单元 的 设备 中 。 图 6. 7 给 出 了 两 个 
粗 粒度 路 由 结构 的 示例 。 图 6. 7a 所 示 的 路 由 结构 在 Totem 可 重 构 系统 '”! 中 使 
用 ; 这 种 路 由 结构 设计 灵活 ， 可 以 在 FU 之 间 提 供 任 意 的 连接 方式 。 图 6. 7b 所 
示 的 路 由 结构 用 于 Silicon Hive 可 重 构 系统 ， 其 灵活 性 较 差 ， 但 速度 快 、 面 积 
IM 。 在 Silicon Hive 结构 中 ， 只 有 具有 通信 可 能 的 单元 之 间 才 有 连接 。 
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图 6.7 粗 粒 度 路 由 结构 的 示例 
a) Totem 粗 粒 度 路 由 结构 [%] b) Silicon Hive 粗 粒 度 路 由 结构 [220] 


6.5.3 ”软件 可 配置 处 理 器 


软件 可 配置 处 理 器 是 由 美国 Stretch 公司 引入 的 。 它 们 有 一 种 体系 结构 可 以 
将 传统 的 指令 处 理 器 与 可 重 构 架构 相 结 合 ， 从 而 允许 应 用 程序 动态 地 定制 指令 
集 。 这 种 体系 结构 有 两 种 优点 : 第 一 ， 通 过 开发 数据 并 行 性 、 操 作 专业 化 及 更 深 
的 流水 线 ， 可 获得 较 高 的 性 能 ; 第 二 ， 应 用 程序 设计 者 可 以 使 用 Stretch C 编译 
器 开发 自己 的 应 用 程序 ， 而 不 需要 专业 的 电子 设计 人 员 指 导 。 

软件 可 配置 处 理 器 由 传统 的 32 位 RISC 处 理 器 及 一 个 可 编程 扩展 指令 集 架 构 
(Instruction Set Extension Fabric, ISEF) 组 成 ， 并 有 一 个 ALU 用 于 算术 和 逻辑 运 
算 ， 一 个 浮 点 部 件 (Floating-Point Unit, FPU) 用 于 浮 点 操作 。 图 6.8 给 出 了 
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Stretch S6 软件 可 配置 处 理 器 。 


本 地 存储 系统 


32KB 指 令 32KB 数 据 





图 6.8 Stretch S6 软件 可 配置 处 理 器 (I (IRAM 表示 ISEF 的 嵌入 式 内 存 ) 


ISEF 由 一 组 块 组 成 ， 每 个 块 包含 一 组 4 位 的 ALU 和 一 组 乘法 单元 ， 它们 之 
间 通 过 可 编程 路 由 结构 连接 。 这 种 4 位 的 ALU 可 以 通过 快速 进位 电路 形成 多 达 
64 位 的 ALU, 每 个 4 位 的 ALU 可 以 实现 多 达 4 个 三 输入 的 逻辑 单元 ， 并 在 寄存 
器 中 有 4 位 用 于 扩展 指令 状态 变量 或 者 流水 线 。 

该 ISEF 支持 多 个 应 用 程序 专用 指令 作为 扩展 指令 。 扩 展 指令 集 的 参数 由 32 
个 128 位 的 寄存 器 提供 。 每 个 扩展 指令 可 以 读 3 个 128 位 的 操作 数 或 写 2 个 128 
位 的 结果 。 并 有 足够 多 的 存 取 指令 可 以 在 寄存 器 、 缓 存 及 存储 子 系统 之 间 传 递 数 
据 ， 数 据 的 位 宽 是 128 位 。ISEF 通过 扩展 指令 集 可 支持 深度 流水 线 。 

除了 上 述 存 取 模 型 ， 还 有 一 组 扩展 指令 可 以 在 ISEF 内 部 定义 任意 的 状态 变 
量 ， 并 存在 寄存 器 中 。 组 内 的 任何 扩展 指令 都 可 以 读 取 和 修改 状态 变量 ， 从 而 减 
少 了 大 量 的 寄存 器 之 间 的 信息 交换 。 

除了 这 种 软件 可 配置 处 理 器 ， 还 有 一 种 可 编程 加 速 器 。 它 由 一 系列 功能 模块 
组 成 ， 这 些 功 能 模块 通过 专用 的 硬件 来 实现 。 这 些 功 能 块 包括 视频 编码 的 运动 佑 
计 、 用 于 H. 264 视频 的 焙 编 码 、 基 于 高 级 加 密 标准 (Advanced Encryption Stand- 
ard, AES) 和 三 重 数据 加 密 标准 (Triple Data Encryption Standard, 3DES) 的 加 
密 操作 ， 以 及 各 种 音频 编码 (如 MP3 和 AC3 格式 等 ) 。 

为 了 开发 一 个 应 用 程序 ， 程 序 员 要 识别 出 需要 加 速 的 关键 部 分 ， 并 使 用 一 个 
叫做 Stretch C 的 变 体 C 语言 写 一 个 或 多 个 扩展 指令 ， 并 作为 函数 在 应 用 程序 中 
访问 。 更 多 有 关 软 件 可 配置 处 理 器 的 应 用 程序 匹配 问题 将 在 6.6 节 介绍 。 并 且 ， 
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有 关 Stretch S5 软件 可 配置 处 理 器 工具 的 研究 将 在 本 书 7. 6. 2 节 和 7. 7. 2 节 介绍 。 
6.6 可 重 构 设备 上 的 映射 设计 


可 重 构 器 件 中 的 资源 需要 进行 适当 的 配置 才能 实现 一 个 特定 的 应 用 程序 。 下 
面 看 一 下 用 于 FPGA 和 软件 可 配置 处 理 器 上 的 映射 设计 方法 。 

典型 的 FPGA 工具 流程 图 如 图 6.9 所 示 '*!。 在 传统 的 工具 流程 图 中 ， 如 
VHDL 和 Verilog 这 样 的 HDL 被 广泛 用 于 工业 设备 中 ， 用 来 描述 在 FPGA 中 实现 
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图 6.9 典型 的 FPGA 工具 流程 图 
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的 电路 。 这 种 电路 的 描述 在 RTL 级 ， 在 每 个 时 钟 周期 中 设计 具体 的 操作 。 然 后 
这 些 描述 在 FPGA 布线 之 前 综合 成 网 表 。 

在 综合 的 第 一 阶段 ， 识 别 RTL 级 设计 的 数据 操作 ， 如 控制 逻辑 、 存 储 模 块 、 
寄存 器 、 加 法 器 和 乘法 器 等 ; 然后 加 工 成 基本 的 布尔 逻辑 ， 如 与 、 或 、 异 或 等 。 

接 下 来 ， 对 基本 逻辑 门 组 成 的 网 表 进 行 优 化 ， 这 种 优化 是 独立 于 FPGA 的 。 
这 种 优化 通常 包括 布尔 表达 式 最 小 化 、 消 除 宛 余 逻 辑 、 缓 冲 区 共享 、 重 定时 和 有 
限 状 态 机 编码 。 再 将 优化 的 逻辑 门 网 表 映 射 到 具体 的 FPGA 架构 中 ， 如 Xilinx Vir- 
tex 设备 ， 或 者 是 Altera Stratix 设备 。 还 有 基于 具体 架构 的 更 深层 的 优化 ， 如 加 法 
器 进位 链 、 移 位 寄存 器 的 专用 移 位 功能 。 综 合 的 最 后 阶段 把 多 个 LUT 和 寄存 器 进 
行 封装 并 集成 为 图 6.4 所 示 的 模块 。 这 种 封装 与 集成 使 不 同 逻 辑 模块 之 间 连 接 的 
数量 达到 最 少 。 综 合 之 后 ， 映 射 到 网 表 中 的 逻辑 模块 根据 线路 速度 、 可 布线 性 及 
线 长 等 不 同 的 优化 目标 移植 到 FPGA 上 。 逻 辑 模块 的 位 置 一 旦 确定 ， 不 同 的 LA 
0、 逻 辑 模块 及 其 他 骨 人 单元 之 间 的 连接 就 可 以 映射 在 FPGA 的 可 编程 布线 资源 
上 。 布线 过 程 决 定 了 应 该 用 哪些 可 编程 开关 连接 逻辑 模块 的 VO 端口 。 最 后 ， 所 
有 LO、 逻 辑 块 和 具体 FPGA 电路 中 的 连 线 资源 的 可 配置 的 比特 流 就 形成 了 。 

上 面 的 描述 涵盖 了 对 细 粒 度 FPGA 资源 的 映射 设计 。 许 多 可 重 构 器 件 含 有 用 
于 运算 和 存储 的 粗 粒度 的 资源 ( 见 6.5. 1 节 )， 因 此 FPGA 设计 工具 需要 将 这 些 
资源 考虑 进去 。 

为 了 提高 生产 率 ，FPGA 工具 流 中 包括 一 些 高 级 程序 设计 语言 (图 6.9 上 半 
部 分 所 示 ) ， 如 AutoPilot'?”! Harmonic”! 及 ROCC! 。 这 些 语言 和 工具 使 得 应 
用 程序 开发 人 员 即 使 不 具备 技术 实现 方面 的 知识 也 能 进行 设计 。 有 些 编译 器 能 够 
从 源 代码 中 提取 计算 的 并 行 性 ， 来 实现 流水 线 的 优化 。 这 些 工具 通常 会 提高 应 用 
程序 开发 人 员 的 生产 效率 ， 但 会 牺牲 一 定 的 产品 质量 。 然 而 ， 由 于 器 件 容 量 和 功 
能 持续 快速 增加 ， 应 用 程序 开发 人 员 的 生产 率 可 能 会 被 优先 考虑 。 

除了 配置 电路 ， 有 些 工 具 还 可 以 分 析 电 路 的 延迟 、 面 积 及 功 耗 。 这 些 工具 通 
常 被 用 于 检查 电路 是 否 满足 应 用 程序 开发 人 员 的 要 求 。 

对 于 美国 Stretch 公司 的 软件 可 配置 处 理 器 ， 编 译 器 既 要 确定 执行 单元 ， 又 
要 确定 ISEF， 如 图 6. 8 fas. Stretch C 编译 器 "的 第 一 阶段 需要 选择 一 种 扩展 
指令 集 并 使 用 各 种 优化 ， 如 常数 传递 、 循 环 展开 及 字 长 优化 等 。 除 此 之 外 ， 还 要 
将 许多 运算 符 加 入 到 平衡 树 中 合适 的 位 置 ; 把 乘法 运算 用 多 次 移 位 和 加 法 实现 ; 
共享 不 同 指 令 所 使 用 的 资源 。 然 后 编译 器 产生 两 个 主要 的 输出 一 一 指令 涉 和 延迟 
信息 ， 包 括 Xtensa 编译 器 的 寄存 器 使 用 情况 ， 以 及 从 源 代 码 中 提取 的 用 于 在 
ISEF 中 5 进行 资源 映射 的 结构 网 表 。 

Xtensa 编译 器 可 以 编译 与 扩展 指令 相关 的 应 用 程序 代码 。 它 使 用 Stretch C 
编译 器 产生 的 程序 头 和 计时 数据 实现 寄存 器 的 分 配 及 指令 流 调度 的 优化 。 然 后 将 
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这 些 结果 与 ISEF 比特 流 关联 起 来 。 

在 Stretch 编译 器 中 产生 ISEF 比特 流 的 过 程 ， 与 前 面 介 绍 的 FPGA 工具 流程 
很 类 似 。 主 要 有 以 下 四 个 阶段 1. 

e BRAY (Map) 阶段 。 为 Stretch C 编译 器 初始 阶段 提供 的 运算 符 产 生 执 行 
模块 。 

。 置 位 (Place) 阶段 。 为 Map 阶段 生成 的 模块 分 配 地 址 。 

© 路 由 (Route) 阶段 。 在 网 表 上 执行 具体 的 由 时 间 驱 动 的 路 由 操作 。 

e 重新 定时 (Retime) 阶段 。 移 动 寄存 器 来 平衡 流水 线 每 个 阶段 的 延迟 。 

连接 器 将 应 用 程序 的 组 件 打包 成 一 个 可 执行 文件 ， 该 文件 包含 一 个 ISEF 配 
置 文档 ， 可 用 于 操作 系统 或 运行 时 系统 在 动态 重 构 过 程 中 确定 指令 的 位 置 。 


6.7 特定 实例 设计 


特定 实例 设计 通常 用 于 定制 硬件 和 软件 。 其 目标 是 对 一 个 特定 运算 的 实现 方 
式 进行 优化 ， 主 要 作用 是 提高 速度 、 减 少 资源 的 使 用 、 降 低 功 耗 ， 但 其 灵活 性 
较 差 。 

下 面 介绍 三 种 自动 化 特定 实例 设计 。 第 一 种 是 常数 合并 ， 通 过 计算 、 传 递 静 
态 输入 值 ， 从 而 消除 不 必要 的 硬件 或 软件 。 图 6. 10 所 示 的 特定 实例 的 硬件 设计 
被 实例 化 为 图 6. 11 所 示 的 具有 特定 过 滤 系 数 的 设计 。 只 有 一 个 输入 的 常 系数 乘 


法 器 比 两 个 输入 的 乘法 器 更 小 、 更 快 ， 因 此 其 使 用 效率 更 高 。 
过 滤 系数 





图 6.10 一 个 FIR 滤波 器 包含 两 输入 的 乘法 器 5 
(支持 可 变 滤 波 器 系数 ; 三 角形 表示 寄存 器 ) 
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输入 值 


常 系数 EJ EA 常 系数 
乘法 器 EJ EA 乘法 器 
结果 


图 6.11 一 个 FIR 包含 单 输入 的 常 系数 乘法 器 (9 (支持 具体 实例 的 滤波 器 系数 ) 





可 重 构 逻 辑 能 实现 一 些 专用 设计 ， 并 将 不 同 的 专用 设计 应 用 于 同一 个 设备 上 
从 而 提高 灵活 性 。 在 一 些 应 用 程序 的 实现 中 可 重 构 逻 辑 比 ASIC 更 高 效 。 对 其 他 
应 用 程序 ， 在 一 个 具体 问题 实例 的 优化 设计 中 ， 人 性 能 的 提高 可 以 使 FPCA 的 性 价 
比 高 于 ASIC, 

特定 实例 设计 的 重要 优势 在 很 多 应 用 程序 中 有 所 体现 。 例 如 ， 在 有 限 脉冲 
响应 (Finite Impulse Response, FIR) 过 滤器 中 ， 修 改 公 共 子 表达 式 消 除 算法 
可 以 减少 用 于 实现 常 系数 乘 法 运算 "的 加 法 器 的 数量 。 与 基于 分 布 式 算法 的 
设计 相 比 ， 特 定 实例 设计 可 以 使 FPGA 片 的 数量 减少 50% ， 用 于 完全 并 行 实现 
的 LUT 数量 可 以 减少 75%。 而且， 这 种 FIR 滤波 器 的 整体 动态 功 耗 会 降 
低 50% 。 

在 运行 时 改变 特定 应 用 程序 的 设计 不 如 改变 电路 的 输入 迅速 ， 因 为 一 个 新 的 
完整 的 或 部 分 的 配置 加 载 进来 ， 要 花 几 十 甚至 是 几 百 微妙 的 时 间 。 因 此 ， 选 择 一 
个 设计 的 实例 化 方法 很 重要 。 运 行 时 配置 的 相关 讨论 将 在 6. 9 节 展 开 。 

第 二 种 技术 是 功能 修改 。 对 一 个 应 用 程序 实例 ， 使 用 硬件 或 软件 技术 修改 其 
功能 ， 可 以 获得 性 能 与 资源 使 用 率 之 间 的 平衡 ， 以 及 满意 的 程序 运行 结果 。 

字 长 优化 就 是 一 个 功能 修改 的 例子 。 考 虑 到 细 粒 度 FPGA 的 灵活 性 ， 可 以 自 
动 化 实现 一 个 进程 ， 来 寻找 一 个 好 的 定制 数据 的 表示 方法 。 选 择 合适 的 字 长 和 扩 
E DSP 系统 中 的 每 个 信号 ， 对 自动 化 的 实施 都 很 重要 。 并 不 像 基 于 微 处 理 器 的 
实现 那样 使 用 处 理 器 的 硬 连 线 结构 要 优先 考虑 字 长 ， 基 于 FPGA 的 可 重 构 计算 允 
许 自 定义 每 个 变量 的 大 小 ， 因 此 可 以 在 数字 准确 性 、 设 计 尺寸 、 速 度 和 功 耗 方面 
达到 最 优 。 

第 三 种 技术 是 对 结构 进行 修改 ， 包 括 通过 修改 硬件 结构 和 软件 结构 来 优化 具 
体 的 应 用 程序 实例 ， 如 支持 相关 的 定制 指令 。 下 面 将 详细 地 介绍 这 一 方法 。 

表 6.3 给 出 了 特定 实例 设计 说 明 ， 是 针对 以 上 三 种 技术 的 。 特 定 指令 设计 的 
更 多 信息 可 在 其 他 地 方 找到 5 。 
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表 6.3 特定 实例 设计 说 明 


行 结 














实例 中 的 作用 
动态 功 耗 减少 50% 
减少 功 耗 87% 
速度 提高 72% ， 面 积 增加 3% 


常数 合并 
功能 修改 
结构 修改 


对 静态 输入 的 值 进行 优化 FIR 过 滤器 0180] 
优化 函数 运行 结果 FRO! 
优化 应 用 程序 实例 的 体系 结构 | 定制 指令 处 理 器 [7 














6.8 可 定制 软件 处 理 器 的 一 个 实例 


本 节 介 绍 一 个 含有 定制 指令 集 的 被 称 为 CUSTARD 的 多 线程 软件 处 理 器 :” 。 
它 涉及 了 前 面 的 一 些 实质 性 内 容 。 即 ， 一 个 指令 处 理 器 怎样 定制 ， 并 通过 修改 指 
令 结构 以 支持 不 同 的 线程 与 定制 指令 ; 确定 重 构 技术 的 相关 工具 流 。 

CUSTARD 在 同一 个 处 理 器 中 可 以 支持 多 个 上 下 文 。 一 个 上 下 文 是 指 线程 执 
行 的 一 个 状态 ， 尤 其 是 寄存 器 、 堆 栈 及 程序 计数 器 的 状态 。 在 硬件 层面 上 支持 线 
程 有 两 个 好 处 : 第 一 ， 上 下 文 切换 〈 即 改变 活动 线程 ) 可 以 在 一 个 周期 内 完成 ， 
使 得 单 处 理 器 交错 执行 独立 的 线程 时 开销 很 小 或 没有 开销 ; 第 二 ， 上 下 文 切 换 可 
用 于 隐藏 延迟 ， 否 则 一 个 单线 程 可 能 会 忙 等 。 

支持 多 线程 的 缺点 主要 是 每 个 上 下 文 都 需要 一 些 额 外 的 寄存 器 。 幸 运 的 是 ， 
现在 的 FPGA 有 很 多 片上 存储 模块 可 用 于 实现 较 大 的 寄存 器 堆 。 处 理 器 的 控制 部 
分 需要 添加 额外 的 复杂 逻辑 ， 并 且 当 前 线程 的 状态 必须 在 流水 线 的 每 一 级 中 记录 
下 来 。 然 而 很 多 流水 线 和 功能 单元 在 多 个 线程 之 间 是 共享 的 ， 因 此 在 多 处 理 器 结 
构 中 ， 可 以 考虑 降低 这 些 流水 线 和 功能 单元 的 面积 。 

CUSTARD 处 理 器 实例 是 使 用 参数 化 的 模型 生成 的 。 图 6. 12 给 出 了 CUSTARD 
微 体系 结构 ， 包 括 了 参数 模型 的 一 些 关 键 组 成 部 分 。 这 种 模型 在 实例 化 一 个 可 综 
合 的 硬件 描述 及 配置 精确 周期 模拟 器 时 都 可 以 使 用 。 

CUSTARD 基础 结构 是 一 个 典型 的 软件 处 理 器 ， 支 持 完全 旁 路 与 互 锁 的 四 级 
流水 线 。 这 是 一 个 load/store 的 RISC 体系 结构 ， 支 持 MIPS 定点 指令 集 。 它 可 以 
增加 流水 线 ， 同 时 可 以 将 MIPS 指令 操作 码 的 剩余 空间 作为 定制 指令 的 操作 码 。 

CUSTARD 的 定制 需要 四 组 参数 。 第 一 组 包括 多 线程 支持 ， 可 以 指定 线程 的 
数量 及 线程 的 种 类 ， 块 多 线程 (Block Multithreading, BMT) 或 交替 多 线程 ( Inter- 
leaved Multithreading，IMT)。 第 二 组 包括 定制 指令 集 和 流水 线 执行 阶段 相关 的 数 
据 通路 及 定制 存储 块 。 第 三 组 包括 旁 路 与 互 锁 结 构 。 无 论 是 在 分 支 延迟 槽 ， 还 是 
在 加 载 延迟 槽 过 程 中 ， 旁 路 路 径 都 是 必要 的 。 第 四 组 包括 寄存 器 堆 ， 给 出 了 寄存 
器 的 数量 与 寄存 器 堆 的 端口 数 。 

CUSTARD 结构 支持 BMT 和 IMT 两 种 多 线程 结构 。 这 两 种 多 线程 结构 同时 用 
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寄存 器 堆 读 端 口 





分 支 旁 路 
图 6. 12 CUSTARD 微 体系 结构 (具有 多 线程 、 寄 存 器 堆 和 参数 的 旁 路 路 径 ) 


于 维持 多 个 独立 线程 的 上 下 文 〈 寄 存 器 、 程 序 计数 器 的 状态 等 ) 。 线 程 的 类 型 因 
上 下 文 切换 引起 的 环境 的 不 同 而 有 所 差别 。 

BMT 触发 上 下 文 切换 ， 是 由 当前 活跃 进程 在 运行 时 产生 的 一 些 事件 引起 的 ， 
如 缓存 缺失 、 显 式 的 吞吐 量 控制 或 者 是 一 些 延迟 较 长 的 定制 指令 开始 运行 等 。 当 
只 有 一 个 线程 可 运行 时 ，BMT 处 理 器 就 跟 传 统 的 单 处 理 器 一 样 了 。 当 多 个 线程 可 
运行 时 ， 可 以 通过 上 下 文 切 换 隐藏 所 有 活路 线程 中 的 延迟 。 上 下 文 切换 在 流水 线 的 
执行 阶段 触发 ， 因 此 最 后 取得 的 一 条 指令 在 新 的 活跃 线程 中 必然 会 被 刷新 和 重 填 。 

IMT 在 每 个 周期 都 执行 强制 的 上 下 文 切换 ， 从 而 导致 多 个 线程 的 交替 执行 。 
IMT 人 允许 流水 线 的 简化 ， 因 为 如 果 有 足够 多 的 线程 ， 流 水 线 的 一 些 阶段 可 以 保证 
存在 独立 的 指令 。 因 此 ，IMT 可 以 消除 或 者 通过 旁 路 和 互 锁 网 络 的 简化 设计 减少 
流水 线 冲 突 。CUSTARD 处 理 器 可 以 利用 这 一 特点 ， 通 过 有 选择 地 消除 旁 路 路 径 ， 
最 终 实 现 对 具有 特定 线程 的 处 理 器 的 优化 。 

表 6.4 给 出 了 前 递 路 径 ( 见 本 书 图 5.12)、 单 线程 中 可 优化 的 互 锁 关系 、 
BMT 参数 及 IMT 参数 的 总 结 ， 包 括 了 每 个 多 线程 结构 中 旁 路 与 互 锁 结构 的 定制 
方法 。BRANCH、ALU 及 MEM 的 旁 路 路 径 如 图 6. 12 所 示 。IMT 列 显示 了 旁 路 和 
互 锁 网 络 中 的 元 素 可 以 怎样 根据 可 运行 线程 的 数量 消除 掉 。 例 如 ， 当 只 有 两 个 线 
程 可 运行 时 ，ALU 前 递 逻 辑 可 以 消除 。 当 两 个 线程 可 以 同时 运行 时 ， 任 何 进入 
流水 线 ALU 阶段 的 指令 都 独立 于 其 他 ALU 阶段 的 指令 。“* ”标记 的 情况 指 约 
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束 指 令 的 输入 顺序 ， 需 要 删除 互 锁 关 系 ; 相关 参数 可 在 编译 器 中 使 用 ， 然 后 用 于 
指令 的 调度 。 


表 6.4 前 递 路 径 〈 见 本 书 图 5. 12) 、 单 线程 中 可 优化 的 互 锁 关系 、 
BMT 参数 及 IMT 参数 的 总 结 


关闭 线程 的 数量 
分 支 前 递 


MEM fii 








取 数 延迟 
“ 对 结构 中 可 以 改变 编译 器 调度 的 元 素 进 行 优 化 从 而 减少 冲突 。 


多 重 上 下 文 是 由 多 重 寄存 器 堆 支 持 的 ， 这 些 寄存 器 堆 在 FPGA 上 以 双 端 口 
RAM 的 形式 实现 。 每 个 寄存 器 堆 通过 寄存 器 号 和 线程 的 D 共同 索引 。 每 个 寄存 器 
堆 是 可 参数 化 的 。 这 种 参数 化 可 以 根据 端口 数 和 每 个 线程 中 寄存 器 的 数量 决定 。 寄 
存 器 堆 中 端口 数 的 增加 使 得 含有 大 量 操作 数 的 定制 指令 可 以 通过 编译 器 选择 。 

将 并 行 命令 式 语 言 编译 到 硬件 中 0620 的 方法 可 用 于 实现 可 参数 化 的 处 理 器 。 
CUSTARD 为 处 理 器 的 参数 化 提供 了 一 个 架构 ， 以 及 一 个 实现 成 硬件 的 方法 。 对 
一 个 给 定 的 应 用 程序 ， 相 关 的 编译 器 会 产生 MIPS 定点 指令 与 定制 指令 ， 从 而 实 
现 CUSTARD 的 优化 。 表 6. 5 给 出 了 一 些 基 准 程序 定制 指令 。 


表 6.5 一 些 基准 程序 定制 指令 


定制 指令 (输入 寄存 器 为 ro ~r, 
立即 数值 为 immo) eins 
LUT (ry > >24) +LUT(r, > >16) 
LUT( [ro > >8]&255) 
















Blowfish 


(Lro > >8] &OxFF) I(r, &0xFF00) 
Color space 
I( [r < <8] &0xFF0000 ) 


LUT(r, ) +rz * (ro < <8) 
LUT(r,) +r, * ( [79 &255] - 128) 






LUT( rg) ALUT(r, > >8) ALUT 


(r, > >16) ALUT(r, > >24) aia 


注 : 输入 寄存 器 m ~rn 表示 分 配 的 通用 寄存 器 。LUT (a) 为 在 查找 表 中 以 a 为 地 址 在 专用 的 BRAM 
中 查找 。 使 用 数量 表示 通过 指令 在 基准 汇编 代码 中 使 用 的 次 数 显示 重用 的 程度 。 延 迟 表示 运行 结 
果 可 用 于 旁 路 或 寄存 器 堆 前 ， 所 需要 执行 的 周期 数 。 
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图 6. 13 给 出 了 一 个 具体 应 用 程序 的 CUSTARD 定制 处 理 器 的 工具 流程 图 。 
定制 指令 是 基于 类 亚 指令 (similar sub-instruction)'"”" 技术 产生 的 。 发 现 定制 指令 
之 前 ， 在 预 优化 阶段 会 执行 标准 的 源 代码 级 优化 ， 如 进行 循环 展开 ， 从 而 发 现 循 
环 的 并 行 性 。 选 择 定制 指令 之 后 ， 重 新 调度 定制 指令 与 基本 指令 以 使 流水 线 停顿 
达到 最 小 。 这 个 调度 阶段 是 可 以 参数 化 的 ， 可 以 支持 CUSTARD 多 线程 模式 引起 
的 微 结构 变 化 。 


多 线程 : 线程 的 类 型 与 数量 
寄存 器 堆 : 端口 、 位 宽 、 数 量 
存储 系统 : 缓存 大 小 、 体 系 结构 


F 


图 6. 13 一 个 具体 应 用 程序 的 CUSTARD 定制 处 理 器 的 工具 流程 图 





编译 结果 包括 硬件 数据 通路 ， 以 实现 定制 的 指令 ， 还 包括 在 定制 处 理 器 上 定 
制 运行 的 软件 。 定 制 指令 的 数据 路 径 被 添加 到 CUSTARD 处 理 器 上 ， 然 后 修改 解 
码 逻 辑 ， 将 新 指令 映射 到 不 用 的 指令 操作 码 部 分 的 地 址 空间 上 。 

这 里 有 一 个 基于 SimpleScalar 架构 "的 精确 周期 模拟 器 。 这 个 模拟 器 可 在 处 
理 器 硬件 描述 中 直接 修改 ， 并 能 够 模拟 一 个 参数 化 的 存储 系统 。 

TE Xilinx XC2V2000 的 FPGA 上 实现 的 CUSTARD 处 理 器 开发 了 五 个 基准 应 
用 程序 : Blowfish, Colourspace, AES, DCT (Discrete Cosine Transform ， 离 散 余 
弦 变 换 ) 和 SUSAN。 结 果 显 示 ， 与 单线 程 处 理 器 相 比 ，IMT4 (四 线程 的 IMT) 
和 BMT4 (四 线程 的 BMT) 面积 分 别 增加 了 28% 和 40% ， 却 可 以 允许 四 个 线程 
交替 执行 ， 并 且 不 需要 软件 开销 。 而 且 与 没有 定制 指令 的 相同 结构 相 比 ， 定 制 指 
令 使 性 能 平均 提高 72% ， 面 积 平均 只 增加 3% 。CUSTARD 使 AEX 的 速度 加 快 
T 355%., 
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没有 定制 指令 的 IMT 处 理 器 最 大 时 钟 频率 比 BMT 处 理 器 和 单线 程 处 理 器 分 
别 高 了 41% 和 5% 。 时 钟 周期 的 数量 平均 减少 了 10%., IMT 处 理 器 通过 交错 执行 
独立 线程 隐藏 了 流水 线 延 迟 。 佑 计 这 种 较 低 的 〈 低 10% ) 改善 是 由 定制 指令 产 
生 的 延迟 较 短 引起 的 〈 见 表 6. 5) ， 在 每 种 情况 下 的 延迟 最 多 只 有 两 个 时 钟 周期 。 
由 于 寄存 器 堆 的 端口 数量 有 限 ， 建 立 延 迟 较 长 的 指令 是 不 可 能 ， 所 以 希望 深度 流 
水 线 处 理 器 或 者 定制 的 浮 点 指令 可 以 创建 足够 长 的 延迟 以 利于 这 部 分 性 能 的 提 
高 。 然 而 ，IMT 处 理 器 可 以 通过 消除 ALU 周围 的 旁 路 逻辑 获得 较 高 的 最 大 时 钟 
频率 。 通 过 时 序 分 析 器 显示 ， 这 些 ALU 旁 路 逻辑 在 BMT 和 单线 程 处 理 中 是 很 有 
必要 的 。 


6.9 重 构 


重 构 的 动机 有 很 多 : 第 一 ,分 享 当 前 没有 需求 的 资源 ; 第 二 ， 需 要 进行 升级 
来 支持 新 功能 、 新 标准 或 者 新 协议 ; 第 三 ， 在 运行 时 调整 硬件 。 

运行 时 的 重 构 为 实现 很 多 应 用 程序 提供 了 可 能 ， 如 自动 化 系统 、 高 性 能 
HAC, MAERO. WAE 和 自 适应 Viterbi 解码 [51 。 下 面 介绍 的 方 
法 是 在 具体 的 技术 中 提取 出 来 的 ， 重 点 讲述 运行 时 重 构 设 计 的 开销 分 析 。 


6.9.1 重 构 的 开销 分 析 


修改 一 个 体系 结构 以 适应 具体 的 应 用 程序 ， 其 最 终 目 标 是 通过 使 用 具体 的 应 

用 程序 优化 技术 提高 性 能 。 然 而 ， 通 过 修改 体系 结构 获得 的 性 能 的 提高 必须 超过 

重 构 所 付出 的 代价 。 考 虑 一 个 软件 函数 1 ( ) ， 在 一 个 具有 标准 通用 指令 集 的 体 

系 结构 上 运行 要 花 时 间 i,。 修 改 后 ， 支 持 定制 指令 ， 运行 时 所 需要 的 时 间 是 ta, 

可 表示 为 原来 执行 时 间 的 一 部 分 ， 即 ats。 ， 其 中 0 <a <1。 对 函数 /() 运行 所 使 

用 的 设备 进行 重 构 需要 时 间 i.。 定 义 一 个 可 重 构 比例 系数 R 通过 分 析 相 关 的 开销 
判断 对 新 的 体系 结构 进行 重 构 是 否 是 值得 的 ， 有 
Li ts 

ee at ok Fe (6:1) 

利用 可 重 构 比例 系数 R 可 以 衡量 重 构 新 体系 结构 所 带 来 的 好 处 。 相 对 当前 

的 实现 方式 来 说 ，R 提供 了 一 个 重 构 后 新 的 实现 方式 的 改善 因子 。R =1 的 点 是 

临界 点 : 如 果 R >1， 重 构 将 是 有 益 的 。 但 必须 注意 ，R =2 并 不 代表 系统 整体 性 

能 提高 两 倍 。 最 大 重 构 比例 系数 R,, 是 对 绝对 性 能 提高 的 程度 的 评估 标准 ， 计 算 

时 不 考虑 重 构 时 间 。 对 一 个 定制 指令 来 说 ，R, 是 R 的 最 大 可 能 值 。 它 由 下 面 的 

公式 确定 : 
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。 ts _1 
Rmax = lim, oR = ae (6.2) 


可 重 构 比例 系数 R,, 的 最 大 可 能 值 是 对 性 能 可 以 提高 的 最 大 比例 的 测量 标 
. 准 ， 它 显示 了 一 个 定制 指令 达到 可 重 构 冰 值 的 快速 程度 ， 有 


t. 
Rpa = lim, wR = (6.3) 


Ri, 为 重 构 的 粒度 和 函数 的 大 小 提供 了 一 个 参考 。 一 个 函数 的 Ro BK, 
越 容易 修改 ， 有 
fy Ru=1 
r R (6.4) 
A, Ro =5 意味 着 原来 指令 执行 速度 是 现在 的 4/5， 重 构 可 以 执行 ; Ro =4 
意味 着 原来 指令 执行 速度 是 现在 的 3/4; 同 理 ，R,。. =3， 意 味 着 速度 是 现在 的 2/ 
3， 以 此 类 推 。 
WRS () WR =1， 那 么 函数 的 修改 及 随后 的 重 构 是 无 意义 的 。 
可 重 构 比例 系数 也 可 以 用 FIP 的 时 钟 数目 描述 。 考 虑 函数 1 ( ) ， 执 行 需要 
花 i 个 时 间 单 位 ， 执 行 该 函数 要 用 ns 个 时 钟 周 期 ， 每 个 时 钟 周期 的 时 间 是 Too 
应 用 程序 执行 一 次 ， 该 函数 被 调用 下 次 。i 也 是 这 样 ， 则 有 
ta =ngT iF 
t =n TF 
重 构 时 间 t 可 以 用 重 构 时 钟 周期 7. 与 周期 数 n. 的 乘积 来 表示 。 重 构 时 钟 周期 
7 与 平台 相关 ， 而 与 在 可 编程 器 件 上 进行 设计 的 周期 时 间 无 关 。 重 构 所 需要 的 时 
钟 周期 数目 由 完全 重 构 还 是 部 分 重 构 决 定 。 完 全 重 构 时 ，n, 是 一 个 与 具体 可 编程 
器 件 相关 的 常数 ; 部 分 重 构 时 ，n 会 因 重 构 时 修改 的 次 数 不 同 而 有 所 差异 。 这 里 
有 一 个 因子 7 代表 某 些 重 构 所 引起 的 开销 ， 如 重 构 前 停止 设备 、 重 构 后 打开 设备 
的 开销 。 重 构 时 间 为 


si 


(6.5) 


t,=n,T.+7 (6.6) 
对 现在 的 可 编程 设备 来 说 ， 打 开 和 关闭 时 间 可 以 忽略 不 计 。 例 如 ， 在 Xilinx Vir- 
tex 设备 中 ， 这 个 值 可 以 小 到 重 构 一 个 最 小 的 原子 可 重 构 单元 所 用 时 间 的 10% 。 
其 他 的 开销 时 间 包 括 保存 与 恢复 处 理 器 的 状态 所 用 的 时 间 。 在 最 极端 的 情况 
下 ， 处 理 器 的 状态 包括 处 理 器 中 的 所 有 存储 部 件 ， 如 寄存 器 堆 、 流 水 线 中 的 寄存 
器 、 程 序 计数 器 或 者 是 缓存 。 通 过 恢复 处 理 器 的 状态 ， 处 理 器 可 以 返回 到 状态 被 
保存 时 的 环境 中 。 
将 式 (6.5) 与 式 (6.6) 带 人 式 (6.1)， 可 重 构 比例 系数 变 为 
ts nTa F 


a a 
titt, nT ,F+n,T.+7 (6.7) 
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该 式 可 用 于 产生 一 个 曲线 。 它 显示 随 着 下 的 增 大 ，R 的 变化 趋势 。 其 中 , FRR 
函数 1 O 被 调用 过 的 次 数 。 当 RR>1 时 ， 重 构 是 有 益 的。 关于 这 种 方法 的 更 多 
信息 可 以 在 有 关 灵 活 自 调整 指令 处 理 器 (the adaptive flexible instruction proces- 
sor) "的 描述 中 发 现 。 


6.9.2 平衡 分 析 : 重 构 的 并 行 性 


下 面 讲 述 一 个 可 重 构 设备 的 简单 分 析 模 型 "1 ， 重 构 面积 越 大 ， 重 构 时 间 越 
长 。 对 于 那些 在 同一 个 任务 中 对 数据 单元 做 重复 独立 处 理 的 进程 ， 可 以 顺序 执行 
或 并 发 执行 ， 增 加 这 些 程序 的 并 行 性 可 以 减少 处 理 时 间 ， 但 会 增加 重 构 时 间 。 下 
面 的 模型 可 以 帮助 找到 一 个 折 中 的 方案 ， 即 整个 运行 时 间 最 短 的 并 发 度 与 重 构 时 
间 之 间 的 折 中 。 

实现 重 构 主要 考虑 三 个 属性 : 性 能 、 面 积 、 存 储 空间 大 小 。 一 个 存储 单元 数 
据 的 运行 时 间 是 t,， 面 积 是 4， 重 构 时 间 是 t:,， 存 储 空间 大 小 是 Y, BABE s 
步 ， 并行 性 是 p。 

可 以 确定 程序 的 参数 : 需要 的 数据 吞吐 量 是 B,,， 一 系列 的 重 构 需要 处 理 n 
个 存储 单元 的 数据 ; 可 重 构 器 件 的 最 大 可 使 用 面积 为 4...， 接 口 的 数据 吞吐 量 
是 Bw。 

在 易 失 性 的 FPGA 上 进行 设计 ， 需要 额外 的 空间 用 来 存储 原始 配置 信息 的 比 
特 流 数据 。 使 用 局 部 运行 时 的 重 构 进行 设计 时 ， 还 需要 额外 的 空间 存储 可 重 构 模 
块 的 预 编译 配置 信息 。 考 虑 4 表示 FPGA 片 (如 CLB) 上 一 个 可 重 构 模块 的 大 
小 ; @ 表示 具体 设备 的 参数 ， 即 配置 一 个 FPGA 片 所 要 的 字 节 数 ; 可 重 构 模块 的 
局 部 配置 信息 所 需要 的 存储 空间 大 小 本 直 接 与 其 面积 4 有 关 : 

W=AO+h~AO (6. 8) 
RP, h 为 配置 信息 头 部 的 大 小 ， 但 大 多 数 情况 下 ， 可 以 被 忽略 ， 因 为 该 信息 头 
部 通常 很 小 。 

运行 时 重 构 的 时 间 开 销 通 常 有 多 个 部 分 组 成 ， 如 调度 时 间 、 保 护 现场 与 恢复 
现场 时 间 及 重 构 进程 本 身 的 开销 时 间 。 考 虑 的 这 种 情况 没有 调度 开销 ， 因 为 需要 
的 模块 直接 被 加 载 ， 也 没有 现场 需要 保存 和 恢复 ， 因 为 一 旦 一 组 数据 信号 通过 ， 
信号 处 理 模块 就 不 需要 保存 状态 信息 。 重 构 时 间 与 局 部 配置 信息 的 大 小 是 呈 比 例 
的 ， 其 计算 式 如 下 : 








t, = 6.9 
P contig P cont ig ( ) 


RP, Don VEC SUE EER, USERS RIT, ASAR 
取决 于 配置 接口 的 数据 传输 速度 ， 还 与 控制 器 及 存储 配置 信息 的 存储 部 件 的 传输 
速度 有 关 。 
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可 以 区 分 哪些 运行 时 的 重 构 现场 的 数据 在 重 构 时 不 需要 缓存 ， 哪 些 需要 组 
存 。 对 于 后 面 这 种 情况 ， 可 以 通过 重 构 时 间 上 及 数据 吞吐 量 B,, 计 算 缓存 大 小 : 
B = ®t, = Zey (6. 10) 


config 


表 6.6 给 出 了 不 同 功 能 和 重 构 时 间 下 的 缓存 大 小 。 可 以 看 到 ， 数 据 在 通过 接 
收 器 时 传输 率 减 少 了 。 因 此 ， 调 用 时 重 构 在 接收 器 链 的 末端 更 容易 实现 。 缓 存 大 
小 与 通信 带宽 及 重 构 的 持续 时 间 呈 正比 。 
表 6.6 几 种 不 同 功 能 和 重 构 时 间 下 的 缓存 大 小 


给 定 配置 时 间 的 缓存 大 小 
功 能 数据 吞吐 量 
ms 


[om [oe 
ERE, sin | sombis | sommi | smia | a00Kna 
GSM 解 调 7. S8Mbit/s 758 Kbit 75. 8Kbit 7. 58Kbit 


@ UMTS; 通用 移动 通信 系统 ，Universal Mobile Telecommunication System, 

@ GSM; 全 球 移动 通信 系统 ，Global System for Mobile Communication, 

缓存 可 以 用 片上 或 片 外 的 资源 实现 。 现 在 ， 大 多 数 FFGA A RBM RAT 
RAM 可 用 于 实现 先进 先 出 缓存 。 例 如 ，Xilinx 的 Virtex-5 FPGA 含有 1 ~ 10 Mbit 
的 RAM 块 。 更 大 的 缓存 必须 用 片 外 存储 资源 实现 。 

运行 时 可 重 构 系统 的 性 能 由 重 构 时 间 决 定 。 如 果 可 重 构 的 硬件 设备 用 作 软 件 
中 函数 的 加 速 器 ， 尽 管 重 构 会 有 开销 ， 但 整体 性 能 会 有 所 提高 。 这 里 所 考虑 的 情 
况 是 ， 通 过 重 构 来 支持 多 种 硬件 功能 从 而 提高 灵活 性 、 减 小 面积 。 但 这 种 情况 
下 ， 相 对 于 没有 重 构 的 设计 来 说 ， 会 损失 一 定 的 性 能 。 在 处 理 器 上 重 构 所 需要 的 
时 间 通 常 比 上 下 文 切换 所 需要 的 时 间 长 ， 因 为 有 很 多 配置 信息 需要 加 载 到 设备 
中 。 与 静态 设计 相 比 ， 重 构 设 计 的 效率 1 可 以 这 样 描述 : 

L static nt n 
hae hd ee 
h 

通过 处 理 更 多 的 不 同 结 构 之 间 的 数据 ， 或 者 是 提高 重 构 时 间 与 处 理 时 间 的 比 
率 ， 可 重 构 系 统 的 效率 变 得 更 高 。 下 面 提出 一 个 考虑 并 行 处 理 时 间 和 重 构 时 间 的 
更 详细 的 分 析 方 法 。 许 多 应 用 程序 可 以 在 小 而 慢 的 顺序 执行 方式 与 大 而 快 的 并 行 





I= 
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或 流水 线 执行 方式 之 间 权 衡 。FIR 过 滤器 、AES 加 密 和 坐标 变化 数字 计算 机 
(Coordinate Rotation Digital Computer, CORDIC) 就 使 用 了 这 种 分 析 方 法 。 

图 6. 14 给 出 了 一 个 需要 四 步 (s =4) 才能 实现 的 算法 的 时 空 图 。 该 算法 与 
处 理 时 间 、 面 积 及 重 构 时 间 有 关 。 每 个 已 知 数 的 处 理 时 间 HTE p SRK. 
可 以 通过 以 下 式 计算 : 

h = ee (6. 12) 

AP, t, AARRE; s 为 算法 执行 的 步 数 ; p 为 程序 的 并 行 
度 。 并 行 执行 加 快 了 数据 的 处 理 速度 ， 但 使 重 构 变 得 缓慢 。 因 为 并 行 处 理 所 需 要 
的 面积 比 串 行 处 理 的 大 ， 并 且 重 构 时 间 直 接 与 面积 呈正 比 ， 如 式 (6.9), BH 
时 间 .直接 与 并 行 度 p 呈正 比 ， 这 里 去。 表示 一 个 处 理 单元 所 需要 的 基本 重 构 时 
间 ， 有 








t, =t, eP (6. 13) 
现在 可 以 计算 一 个 规模 为 n 个 数据 项 的 程序 的 运行 时 间 
baa = no +E, B +t, eP (6.14) 





图 6. 14 ”一 个 需要 四 步 (s=4) 才能 实现 的 算法 的 时 空 图 


图 6. 15 给 出 了 不 同 规模 n 及 不 同 并 行 度 p 的 标准 处 理 时 间 ， 反 映 了 并 行 性 
对 运行 时 间 的 影响 。 考 虑 一 个 算法 ， 其 执行 步 数 * = 256， 通 过 观察 可 知 ， 过 滤 
器 可 以 有 200 甚至 更 多 个 指令 。 每 个 数据 的 处 理 时 间 是 标准 的 ， 假 设 每 个 处 理 部 
件 的 重 构 时 间 t, FARIS FT A A] t, 。 的 5000 倍 。 在 不 同 的 应 用 程序 及 目标 设备 
中 ， 这 个 值 是 不 同 的 ， 但 对 当前 设备 来 说 ， 至 少 在 数量 级 上 是 正确 的 。 可 以 看 
到 ， 完 全 串 行 执行 对 一 些 规模 较 小 的 运算 比较 好 。 在 这 种 情况 下 ， 较 短 的 配置 时 
间 比 较 长 的 处 理 时 间 更 重要 。 然 而 由 于 受 配置 时 间 的 影响 ， 整 体 的 运行 时 间 仍 然 
很 长 。 对 于 规模 较 大 的 运算 进行 完全 并 行 设 计 比 较 好 ， 因 为 运算 时 间 主 要 是 处 理 
时 间 ， 重 构 时 间 所 占 比例 很 小 。 在 中 等 规模 的 运算 中 ， 可 以 通过 调整 并 行 度 来 优 
化 处 理 时间 。 

为 了 寻找 最 理想 的 并 行 度 ， 计 算式 (6.14) 的 关于 p 的 偏 导数 : 


第 6 章 定制 与 可 配置 性 205 
1 000 


n=1 000 








n=10 000 


每 个 数据 项 的 标准 运行 时 间 


n =100 000 


0 1 2 4 8 16 32 64 128 256 
并 行 度 p 


图 6.15 不 同 规模 n 及 不 同 并 行 度 的 标准 处 理 时 间 (执行 步 数 s=256, 假设 i =50001,..) 


Bi (6. 15) 
为 了 寻找 最 小 值 ， 令 式 (6.15) 为 0， 解 得 
Pon = aa (6. 16) 


t, 


结果 ps 通常 是 浮 点 数 ， 不 能 用 来 表示 并 行 度 。 为 了 确定 P 的 实际 值 ， 可 根据 
表 6.7 所 示 指 定 Papio 


表 6.7 根据 pop. 的 值 确定 p 的 实际 值 


0 <P. S1 完全 串 行 执行 , p =1 
1 <Pop <S 选择 peZ 并 且 1 po -p1 最 小 
$SPopt 完全 并 行 执行 , p =s 





确定 了 使 总 体 运行 时 间 达 到 最 优 的 并 行 度 之 后 ， 就 可 以 减少 每 个 工作 负载 的 
总 体 处 理 时 间 ， 从 而 使 性 能 达到 最 好 。 但 仍然 有 必要 检查 这 种 实现 方法 是 否 满足 
了 应 用 程序 对 吞吐 量 Oo, WAR, A 

Day = Pm Poe (6. 17) 
最 终 需要 的 面积 4 必须 小 于 总 共 可 用 的 最 大 面积 4。...。 总 之 ， 根 据 这 种 模型 实现 
一 个 优化 ， 必 须 按 下 面 的 步骤 执行 : 

1. 从 应 用 程序 中 得 到 Dap s 和 nm。 

2. 从 使 用 的 技术 中 获得 Dongo 

3. 展开 设计 并 确定 二 和 4。 
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4. 分 别 使 用 式 (6.9)、 式 (6.12)、 式 (6.13) HÈ t~ tper treo 

5. 用 式 (6.16) 计算 pe 并 根据 表 6. 7 查找 可 行 值 。 

6. 用 式 (6.14) 计算 ton, FAR (6.17) 检查 吞吐 量 。 

7. 以 第 5 步 中 得 到 的 并 行 度 p 实现 设计 ， 并 检查 实际 的 吞吐 量 是 否 满足 
要 求 。 

8. HA (6.10) 计算 缓存 大 小 B， 并 检查 是 否 满足 A<4.,,。 

以 上 方法 适用 于 很 多 应 用 程序 和 目标 技术 ; 使 用 这 些 方 法 能 找到 使 性 能 达到 
最 好 的 设计 方案 。 为 了 找到 满足 吞吐 量 需 求 的 最 小 的 设计 ， 可 以 尝试 使 用 较 小 p 
值 并 用 式 (6. 17) 检查 是 否 符合 要 求 。 

这 种 方法 还 可 以 扩展 以 处 理 可 重 构 设计 的 能 源 效率 问题 ” ; 相对 于 没有 重 
构 的 设计 来 说 ， 一 个 重 构 的 FIR 过 滤器 能 源 利用 率 会 提高 49% ， 面 积 使 用 率 提 
高 87% 。 


6.10 总 结 


定制 技术 可 以 以 多 种 方式 用 于 ASC 和 重 构 技 术 中 。 这 里 对 这 些 技术 进行 了 

综述 ， 并 展示 了 特定 实例 设计 和 定制 指令 处 理 器 是 怎样 利用 可 定制 性 的 。 
” 随 着 技术 的 进步 ， 以 下 两 种 影响 变 得 越 来 越 重 要 : 

1. 集成 电路 封装 成 本 迅速 增加 ， 使 ASIC 难以 支撑 。 

2. SoC 设计 与 验证 的 复杂 度 持 续 增 长 。 

本 章 所 讨论 的 技术 能 够 直接 处 理 这 些 问 题 : 不 同 程度 的 预 加 工 定制 ( prefab- 
rication customization) 可 以 减少 对 ASIC 技术 的 需求 和 设计 复杂 性 。 像 FPCA 这 样 
的 重 构 技 术 以 后 加 工 定制 (postfabrication customization) 的 形式 提供 了 相当 程度 
的 灵活 性 ， 但 要 牺牲 一 定 的 速度 、 面 积 及 功 耗 。 

定制 与 可 配置 性 不 仅 广泛 用 于 工业 系统 中 ， 而 且 应 用 于 学 术 研究 领域 。 它 们 
在 SoC 设计 重用 5 、 可 综合 数据 通路 架构 '”] 、 微 处 理 器 动态 扩展 、 可 定制 多 
处 理 器 !%] 和 其 他 方面 都 有 新 的 进展 。 而 且 ， 动 态 可 重 构 处 理 器 已 经 开始 在 工业 中 
使 用 ， 如 日 本 松下 公司 的 D-Fabrix、 日 本 日 电 电子 (NEC Electronics) 公司 的 DRP- 
1、 日 本 日 立 (Hitachi) 公司 的 FE-GA… 等 。 据 说 ，ARM 处 理 器 及 其 互联 技 
R”, A ARM 单元 库 和 AMBA 互联 技术 将 会 在 Xilinx FPGA 体系 结构 中 使 用 与 完 
善 。 毫 无 疑问 ， 未 来 几 年 内 ， 定 制 与 可 配置 性 将 继续 在 电子 系统 中 扮演 重要 角色 。 


6.11 Sm 


1. 从 多 种 应 用 程序 角度 举例 说 明 后 加 工 定制 的 好 处 。 
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2. 一 些 可 重 构 设 备 支持 流水 线 互联 。 那 么 流水 线 互联 的 利弊 是 什么 ? 

3. 一 些 FPGA 厂商 通过 生产 结构 化 的 ASIC 实现 FPGA 设计 ， 实 际 上 消除 了 
可 重 构 性 。 它 们 为 什么 要 这 样 做 ? 

4. 早期 的 FPGA 只 包含 同 种 细 粒 度 逻 辑 单元 阵列 ， 而 现在 有 很 多 都 是 不 同 
种 类 的 。 除 了 细 粒 度 逻 辑 单 元 ， 现 在 的 FPGA 还 包含 一 些 可 重 构 存储 模块 、 乘 法 
器 甚至 是 处 理 器 核 。 怎 样 解释 FPGA 体系 结构 的 这 种 演化 ? 

5. 一 个 机 器 M 的 部 分 指令 集 可 通过 协 处 理 器 C 加 速 ， 并 使 速度 提高 n 售 。 

(a) 假设 一 个 应 用 程序 P 编译 成 在 机 器 M 上 运行 的 指令 ， 部 分 指令 k 属于 
协 处 理 器 执行 的 指令 。 那 么 在 机 器 M 上 使 用 协 处 理 器 C 其 整体 速度 提高 多 少 ? 

(b) (a) 部 分 的 协 处 理 器 C 的 成 本 是 M 的 7 倍 。 考 虑 可 以 用 C 对 一 个 程序 
的 指令 加 速 ， 请 计算 要 使 和 C 组 成 的 系统 应 该 比 M 快 /7 倍 ， 在 协 处 理 器 C 上 
运行 的 指令 所 占 的 比例 最 少 是 多 少 ? 

(c) M 的 性 能 每 个 月 提高 m 倍 ， 那 么 要 经 过 多 少 个 月 ， 才 能 在 没有 协 处 理 
器 C 的 情况 下 ， 执行 (a) 部 分 所 说 的 程序 了 的 速度 与 M 和 C 混合 系统 执行 的 
速度 一 样 快 ? 

6. 怎样 对 式 (6.7) 进行 一 般 化 处 理 ， 从 而 可 以 覆盖 m 种 定制 指令 。 

7. 数据 库 搜 索引 擎 使 用 运行 时 可 重 构 的 散 列 函数 来 减少 要 处 理 的 资源 数量 。 
搜索 引擎 包括 p 个 并 行 运行 的 处 理 器 ; 每 个 处 理 器 可 以 通过 重 构 实现 其 中 的 一 个 
散 列 函数 。 输 入 数据 的 总 的 单词 数 w 被 分 成 e 个 子 集 ; 每 个 子 集 用 一 个 具体 的 散 
列 函 数 处 理 ， 每 个 字 中 有 一 位 用 于 标记 匹配 是 否 进行 。 标 记 位 和 相应 的 单词 被 存 
储 在 临时 存储 区 ， 再 用 下 一 个 散 列 函数 在 重 构 后 的 处 理 器 中 处 理 这 些 临时 数据 。 
每 次 迭代 都 更 新 标记 位 ， 人 处 理 过 程 一 直 运 行 直 到 数据 被 所 有 的 h 个 散 列 函 数 处 理 
完 。 令 T, 表示 散 列 函数 处 理 器 中 的 关键 路 径 延 迟 ，7. 表示 为 支持 不 同 的 散 列 函 
数 对 处 理 器 重 构 所 需要 的 时 间 。 访 存 需 要 m 个 时 钟 周期 ， 每 个 单词 平均 由 e 个 
字母 组 成 。 考 虑 最 坏 的 情况 ， 即 所 有 的 散 列 函数 都 要 执行 ， 如 果 一 个 匹配 没有 发 
生 就 终止 匹配 过 程 ， 那 么 分 析 将 会 变 得 很 困难 。 

(a) 处 理 一 个 子 集 的 数据 需要 多 长 时 间 ? 

(b) 处 理 所 有 的 数据 需要 多 长 时 间 ? 

(c) 考虑 每 个 字母 占 位 ， 那 么 需要 多 少 个 临时 存储 空间 ? 

8. 为 估算 重 构造 成 的 开销 对 能 源 利 用 率 的 影响 ， 可 以 建立 一 个 分 析 模 型 ， 
就 像 6. 9. 2 节 所 述 ， 相 关 应 用 程序 包括 以 下 内 容 : 

。n， 两 次 连续 重 构 要 处 理 的 数据 包 或 数据 项 的 数量 。 

。s， 算 法 中 程序 的 执行 步 数 。 

一 次 重 构 的 实现 需要 下 面 的 参数 : 

。 4， 实现 所 需要 的 面积 。 
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。p， 实 现 中 的 并 行 度 。 

。1,， 一 个 数据 包 或 数据 项 的 处 理 时 间 。 

。1,.， 重 构 时 间 。 

。P,， 处 理 时 的 功 耗 。 

e P., HAIE, 是 P, 的 一 部 分 。 

。P,， 功 耗 开 销 ， 是 P, 的 一 部 分 。 

。 P,， 重 构 时 的 功 耗 。 

对 可 重 构 器 件 有 以 下 两 个 参数 : 

© Bn,， 了 配置 接口 的 数据 吞吐 量 。 

。@， 每 个 资源 或 单位 面积 的 尺寸。 

耗 电量 是 功 耗 和 相关 的 持续 时 间 造 成 的 。 

考虑 计算 引起 的 功 耗 P, 与 并 行 度 p 成 正比 ， 存 在 一 个 不 变 功 耗 P,， 重 构 引 
起 的 不 变 功 耗 已: 

(a) 处 理 n 个 数据 项 的 计算 功 耗 E, 是 多 少 ? 

(b) 基于 P, 的 能 源 开销 E, 是 多 少 ? 

(c) 在 重 构 时 间 与 p 呈正 比 时 ， 重 构 的 功 耗 E, 是 多 少 ? 

(d) 每 个 数据 项 由 于 计算 和 重 构 所 需要 的 总 的 功 耗 是 多 少 ? 

(e) 寻找 最 优 的 并 行 度 ， 以 使 每 个 数据 项 消耗 的 功 耗 最 少 。 


7.1 引言 


本 章 描述 了 各 种 类 型 的 应 用 ， 以 此 来 阐明 SoC 设计 中 的 机 遇 和 利益 的 权衡 。 
同时 ， 也 展示 了 如 何 应 用 前 面 章 节 所 描述 的 一 些 技术 。 

首先 ， 提 出 了 一 种 设计 SoC 的 方法 。 然 后 分 析 了 高 级 加 密 算 法 (AES) 中 的 
几 个 简单 的 设计 ， 以 此 阐述 之 前 提出 的 技术 。 之 后 ， 将 要 探讨 使 用 分 析 技 术 和 原 
型 技术 的 三 维 计算 机 图 形 学 ， 以 及 这 些 技术 在 一 个 简化 的 PS2 系统 中 的 应 用 。 最 
后 ,描述 了 静态 图 像 、 实 时 视频 压缩 方法 及 一 些 其 他 应 用 ， 以 说 明 SoC 的 架构 及 
其 需求 的 多 样 化 。 

这 里 的 讨论 将 需求 和 用 以 表现 满足 需求 的 设计 进行 了 分 离 。 需 求 包 括 需 要 什 
A; 而 设计 包含 了 足够 详细 的 实现 细节 ， 以 便于 评估 设计 是 否 满足 需求 。 


7.2 SoC 设计 方法 


图 7. 1 给 出 了 一 种 SoC 设计 方法 ， 它 是 前 面 各 章 原 理 的 简化 的 SoC 设计 方 
法 。 本 书 第 2 ANAT SoC 设计 中 的 五 大 问题 : 性 能 、 芯 片面 积 、 功 耗 、 可 靠 性 
和 可 配置 性 。 这 些 问题 提供 了 获取 设计 规格 和 运行 时 需求 的 基础 。 原 始 设计 会 逐 
步 得 到 完善 ， 并 有 望 满足 关键 性 的 需求 。 通 过 处 理 跟 内 存 (第 4 章 )、 互 联 (第 
5 章 ) 、 处 理 器 〈 第 3 章 ) 、 缓 存 (第 4 章 ) 及 定制 化 和 可 配置 性 (第 6 章 ) 相 
关 的 问题 ， 原 始 设计 得 以 系统 地 优化 。 这 个 过 程 一 直 重 复 ， 直 到 设计 满足 性 能 和 
运行 时 的 要 求 。 本 章 会 给 出 更 多 的 详细 说 明 。 

然而 ， 使 用 这 种 方法 设计 系统 可 能 会 是 一 个 艰难 的 任务 。 系 统 设计 通常 要 比 
组 件 或 者 处 理 器 设计 更 具 挑 战 性 ， 而 且 经 常 需要 经 过 多 次 迭代 以 确保 : (1) W 
足 设计 需求 ; (2) 接近 最 优 ， 包 括 总 成 本 (包括 设计 、 生 产 制造 及 其 他 成 本 ) 
和 性 能 (包括 市 场 规模 及 竞争 力 ) 。 

通常 ， 一 个 设计 开始 于 一 个 最 初 的 项 目 计 划 。 如 本 书 第 1 章 所 述 ， 计 划 包 括 
为 产品 开发 做 预算 分 配 、 时 间 表 、 市 场 估计 (包含 一 份 相关 竞争 产品 的 分 析 报 
告 ) ， 以 及 目标 产品 性 能 和 成 本 的 估计 。 如 图 7. 2 所 示 ， 下 一 步 是 创建 一 个 原始 
产品 设计 。 此 设计 仅 是 一 个 很 有 可 能 满足 目标 产品 性 能 和 成 本 需求 的 雏形 。 再 进 
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7.1 一 种 SoC 设计 方法 


一 步 分 析 就 能 够 知道 该 设计 是 否 能 满足 需求 。 最 初 的 分 析 中 很 重要 的 一 部 分 是 ， 
完全 理解 性 能 和 功能 需求 及 它们 之 间 的 相互 关系 。 应 用 的 各 方面 均 要 进行 详细 说 
明和 严格 定义 ， 并 做 出 适当 的 分 析 和 模拟 模型 。 这 些 模 型 应 该 为 应 用 提供 一 种 平 
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衔 性 能 和 功能 的 方法 ， 同 时 应 该 提供 设计 实现 技术 ， 这 对 满足 运行 时 间 需 求 是 很 
重要 的 ， 如 表 7. 1 所 示 。 


设计 迭代 





7.2 系统 设计 流程 


表 7.1 某 些 视频 和 图 形 应 用 需要 满足 的 运行 时 需求 的 限制 





应 ”用 实时 性 限制 /( 帧 / 秒 ) 其 他 限制 

视频 会 议 16 帧 大 小 ， 误 差 率 ， 丢 帧 率 

三 维 图 形 30 图 像 大 小 ， 阴 影 ， 纹 理 ， 颜 色 
需求 和 设计 


需求 分 析 的 输入 通常 是 一 份 来 自 客户 或 市 场 调 研 的 需求 规格 ， 输 出 则 经 常 是 
设计 的 功能 需求 规格 。 对 于 大 企业 ， 需 求 说 明 书 可 能 是 为 了 评审 而 详细 书写 的 。 
然而 ， 对 于 小 企业 或 者 刚 起 步 的 企业 ， 可 能 是 以 简短 的 电子 表格 形式 撰写 的 。 不 
论 详 细 或 简单 ， 设 计 规 格 都 是 为 了 做 好 设计 的 评审 、 归 档 和 验收 工作 ， 而 且 其 内 
容 必须 清晰 连贯 。 另 外 ， 在 各 个 系统 设计 阶段 ， 精 确 、 可 执行 或 者 图 解 方式 的 说 
明 ， 可 以 用 来 获取 SoC 的 主要 操作 或 者 所 选 功能 的 数据 流 和 控制 流 。 这 些 描述 能 
够 帮助 设计 者 理解 功能 需求 。 一 旦 理解 了 功能 需求 ， 这 些 描述 就 可 以 被 映射 到 
SoC 中 主要 部 件 及 其 相互 间 交 互 的 合理 的 实现 中 。 

产品 设计 规格 做 好 之 后 ， 就 要 着 手提 出 一 个 初步 的 系统 设计 ( 见 图 7.3)。 
设计 规格 通常 规定 了 产品 的 大 致 布局 和 编 址 问题 。 例 如 ， 是 将 所 有 元 件 放 到 一 个 
芯片 上 还 是 将 整个 系统 置 于 板 卡 上 ， 以 及 操作 系统 、 访 存 的 总 体 大 小 、 后 备 存储 
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器 的 选择 。 为 了 满足 电路 需求 ， 将 从 以 下 方面 继续 完善 最 初 的 设计 : 





图 7.3 三 个 处 理 器 P1、P2 和 P3 的 初始 设计 例子 


1. 选择 分 配 内 存 和 后 备 存储 器 。 这 通常 按照 本 书 第 4 章 的 描述 进行 。 

2. 一 旦 内 存 分 配 好 ， 处 理 器 就 被 选择 好 了 。 通 常 选择 用 一 个 简单 基础 的 处 
理 器 来 运行 操作 系统 及 管理 应 用 控制 功能 。 依 据 严格 计算 的 特性 ， 时 间 要 求 严格 
的 进程 可 以 被 分 配给 专用 处 理 器 (如 本 书 第 1 章 和 第 3 章 讨论 的 VLIW 和 SIMD 
处 理 器 ) 。 

3. 内 存 和 处 理 器 的 布局 大 体 地 定义 了 本 书 第 5 章 所 涉及 的 互联 架构 。 现 在 
需要 确定 的 是 带宽 需求 。 设 计 规 格 和 处 理 器 目标 性 能 主要 决定 了 整体 需求 ， 而 组 
存 可 能 会 在 满足 规范 方面 充当 一 个 重要 的 缓冲 元 件 。 通 常 ， 最 初 的 设计 假定 互联 
带宽 是 足够 与 内 存 带 宽 相 匹 配 的 。 

4. 分 析 内 存 因素 ， 评 估 它 们 对 延迟 和 带宽 的 影响 。 缓 存 和 数据 缓冲 器 的 
大 小 按照 满足 内 存 和 互联 带宽 需求 来 选择 。 一 些 细 节 将 会 在 后 面 提 到 ， 如 确定 
总 线 延 迟 时 ， 通 常 不 需要 考虑 总 线 竞争 。 到 此 为 止 ， 处 理 器 性 能 模型 设计 就 完 
成 了 。 
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5. 某 些 应 用 需要 进行 外 设 的 选择 和 设计 ， 它 们 的 设计 也 必须 满足 带宽 需求 。 
在 7.5.1 节 和 8.7 节 分 别 给 出 了 几 个 外 设 的 例子 。7. 5. 1 节 的 外 设 例子 涉及 数码 
相机 的 JPEG 系统 。8.7 节 的 外 设 例子 是 关于 未 来 自主 SoC 系统 所 用 到 的 无 线 频 
率 和 光 通 信 。 

6. 确定 整体 成 本 和 性 能 的 粗略 估计 。 

初始 设计 完成 之 后 ， 开 始 进入 设计 的 优化 和 验证 阶段 。 这 个 阶段 需要 多 种 工 
具 的 支持 ， 包 括 性 能 分 析 工 具 和 优化 编译 器 。 所 有 部 件 及 分 配 都 要 遵照 降低 代价 
(面积 ) 、 提 高 性 能 和 功能 的 原则 重新 评估 。 例 如 ， 定 制 化 和 可 配置 性 技术 ， 如 
第 6 章 所 提 到 的 自 定义 指令 或 者 运行 时 重 配 置 ， 可 以 被 应 用 以 提高 灵活 性 或 性 
能 。 再 例如 软件 优化 ， 如 那些 改善 参考 位 置 的 软件 优化 技术 也 经 常 以 较 小 的 硬件 
成 本 换 来 较 大 的 性 能 提高 。 应 用 的 优化 会 影响 到 硬件 和 软件 的 重新 分 配 ， 这 将 可 
HERZ MHRA SRR EEE) 的 复杂 性 及 实时 性 操作 系统 5 的 选择 。 

完成 每 项 优化 之 后 ， 都 需要 分 析 该 优化 对 准确 度 、 人 性能、 资源 利用 、 功 耗 等 
产生 的 影响 ， 并 且 需 要 对 设计 进行 验证 以 确保 正确 性 不 会 受到 此 次 优化 的 影 
响 扬 ] 。 这 些 分 析 和 验证 通常 是 通过 系统 级 电子 设计 工具 ( 见 下 框 ) 和 原型 搭建 
的 支持 来 实现 。 
系统 级 电子 (Electronic System Level，ESL) 设计 和 验证 

关于 ESL 都 涵盖 哪些 范围 ， 似 乎 还 没有 一 个 标准 的 描述 。 维 基 百 科 对 ESL 
设计 和 验证 的 定义 是 “一 种 新 兴 的 首要 专注 更 高 抽象 级 别 的 电子 设计 方法 学 ”。 
另 一 种 ESL 的 定义 是 ， 在 比较 合理 的 性 价 比 的 基础 上 ， 利 用 适当 的 抽象 化 增加 
对 系统 的 理解 ， 提 高 成 功 实现 功能 的 可 能 性 。 目 前 开发 的 各 种 ESL 工具 都 能 
够 很 好 地 支持 在 算法 描述 级 跨 硬件 、 软 件 边界 地 开发 系统 "1 。 

当 系 统 设计 经 过 几 次 迭代 趋 于 最 优 之 后 ， 另 一 个 完整 的 项 目 计 划 就 出 现 了 , 
它 可 以 帮助 理解 任何 一 个 对 固定 成 本 规划 所 做 的 修改 ， 以 及 处 理 系 统 集成 和 测试 
相关 的 问题 。 最 后 ， 基 于 最 终 的 设计 对 产品 市 场 进 行 评估 ， 也 可 以 对 整体 项 目的 
收益 做 出 评估 。 


7.3 应 用 研究 : AES 


下 面 以 AES 为 例 ,来 阐明 如 何 应 用 前 面 所 讨论 的 技术 来 探索 满足 特定 需求 
的 设计 。 
7.3.1 AES: 算法 及 需求 


AESP 有 三 种 规格 : 128 位 (AES-128 ) 192 位 (AES-192) 和 256 位 
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(AES-256) 。 从 原始 数据 到 加 密 后 的 数据 ， 整 个 过 程 包括 一 次 初始 轮 ，r -1 次 标 
准 轮 ， 以 及 一 次 最 终 轮 。 主 要 的 转换 过 程 包括 以 下 几 步 ( 见 图 7.4): 





字 节 替代 行 移 位 列 混淆 轮 密 钥 加 


图 7.4 ”全 流水 AES 架构 0o] 


。 字 节 替代 ”使 用 专用 的 设计 替换 盒子 (S-BOX) 将 输入 块 以 字 节 为 单位 
进行 转换 。 

。 行 移 位 ”输入 的 字 节 被 重新 排列 成 四 行 。 然 后 根据 行 号 按照 预定 的 步骤 
对 每 一 行进 行 旋 转 。 

。 列 混淆 ”通过 基于 有 限 域 GF (2°) 上 的 多 项 式 乘法 对 重新 排列 的 四 行 结 
构 的 每 一 列 进行 变换 。 

e 轮 密 钥 加 ”输入 与 每 次 循环 的 密 钥 相 异 或 。 

初始 轮 包括 一 次 轮 密 钥 加 变换 ; 标准 轮 包 括 以 上 四 步 变换 ;最 终 轮 包括 以 上 
四 步 中 列 混淆 变换 之 外 的 其 他 三 步 变换 。 另 外 ， 解 密 过 程 就 是 以 上 运算 的 逆 变 
换 。 轮 变换 可 以 并 行 执行 以 加 快 加 密 过 程 。 

除了 以 上 四 个 主要 步骤 ，AES 还 包括 三 种 不 同 规格 的 块 : 128 位 ( AES- 
128) 、192 位 (AES-192) 和 256 位 〈(AES-256) 。 块 加 密 的 过 程 被 分 为 不 同 的 
轮 ， 支持 AES-128 标准 的 设计 共 由 10 轮 组 成 。 

表 7.2 列 出 了 不 同 应 用 对 吞吐 量 的 需求 ， 如 无 线 网 和 网 络 电话 。 要 做 的 是 找 
到 满足 一 种 甚至 几 种 吞吐 量 需 求 的 设计 。 
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R72 不 同 应 用 对 吞吐 量 的 要 求 


TEER 
250 Kb/s 


@ MAN; Metropolitan Area Network ， 城 域 网 。 
@ PAN: Personal Area Network ， 个 人 区 域 网 。 


7.3.2 AES: 设计 和 评估 


初始 设计 首先 从 芯片 尺寸 、 设 计 规范 、 运 行 时 需求 人 手 〈 见 图 7.1) 。 假 定 
这 些 需求 指定 了 采用 PLCC968 封装 标准 、24. 2mm x24. 2mm 大 小 的 芯片 。 

任务 是 选择 一 个 既 能 完成 所 需 功能 又 满足 面积 约束 的 处 理 器 。 这 里 选择 
ARM7TDMI， 一 个 32 位 的 RISC 处 理 器 。 该 处 理 器 的 芯片 规格 有 两 种 : 一 种 是 采 
用 180nm 工艺 ,尺寸 是 0. 59mm2 ; 另 一 种 采用 90nm LH, RHO. 18mm’, 4R 
明显 。 两 种 处 理 器 都 能 够 满足 PLCC68 封装 标准 的 初始 面积 需求 。SimpleScalar 
模拟 器 工具 集 对 执行 AES 所 开销 的 时 钟 周期 数 统计 结果 是 16 511 个 时 钟 周 期 ， 
所 以 ， 对 于 180nm 工艺 、 主 频 115MHz (根据 厂商 的 宣传 ) 的 处 理 器 ， 吞 吐 量 是 
[ (115 x 32)/16511 ] Kb/s = 222. 9Kb/s; 对 于 90nm 工艺 、 主 频 236MHz 的 处 理 
器 ， 吞 吐 量 是 457.4 Kb/s。 因 此 ，180nm 的 ARM7 处 理 器 很 可 能 只 够 满足 表 7. 2 
中 的 VoIP 应 用 ， 而 90nm 的 ARM7 处 理 器 除了 能 满足 VoIP 应 用 还 可 以 支持 PAN 
应 用 和 802. 15TG4 应 用 。 

接 下 来 将 在 不 与 最 初 面积 约束 冲突 的 基础 上 对 该 SoC 芯片 进行 优化 ， 以 提高 
整个 系统 的 吞吐 量 。 下 面 将 应 用 第 4 章 中 用 到 的 技术 来 改变 缓存 大 小 ， 如 果 Sim- 
pleScalar TRÆ 的 某 种 软件 模型 对 这 种 应 用 有 效 ， 那 么 还 将 使 用 该 工具 集 来 
评估 修改 后 的 效果 。 

使 用 SimpleScalar 模拟 器 模拟 AES 软件 模型 ， 测 试 将 一 个 512 组 的 直接 映射 
一 级 指令 缓存 的 块 大 小 从 32 字 节 扩大 到 64 字 节 后 产生 的 影响 ;AES 的 执行 时 钟 
周期 数 由 16 511 降 到 16 094， 即 降低 了 2. 6% 。 假 设 具 备 基本 配置 不 含 缓存 的 处 
理 器 初始 面积 是 OOK rbe， 一 级 指令 缓存 (L1 Cache) 面积 为 8K rbe。 如 果 将 组 
存 容量 加 倍 ， 总 面积 将 由 68K rbe 变 为 76K rbe。 总 面积 增长 比率 为 11% ,但 跟 
2. 6% 的 速率 提高 比 相 比 ， 性 价 比 太 低 。 

ARM7 已 经 是 一 款 流水 线 指令 处 理 器 。 如 表 7.3 所 示 ， 其 他 架构 类 型 ， 如 并 行 
流水 数据 通路 ， 有 很 大 的 潜力 满足 需求 。 这 些 FPGA 方案 可 以 满足 表 7. 2 中 所 有 应 
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© PLCC; Plastic Leaded Chip Carrier， 塑 料 引线 芯片 载体 。 
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用 的 吞吐 量 需 求 ， 代 价 是 比 ASIC'"*1 更 大 的 面积 和 功 耗 。 另 外 一 种 选择 是 ， 本 书 第 
6 章 提 到 的 通过 自 定义 指令 '31 扩 展 处 理 器 指令 集 ， 这 里 指 AES 的 自 定义 指令 。 
表 7.3 Xilinx Virtex XCV-1000 上 的 性 能 和 面积 权衡 


AEN 轮 内 部 流水 
ee ee oe 













最 大 时 钟 频率 /MHz 
加 密 / 解 密 吞 吐 量 (128 位 )/( Mb/s) 
面积 [ 片 (slice) 数量 ] 
面积 (BRAM 数量 ) 
片 (slice) 和 BRAM 使 用 率 10% #1 56% 


YE: 全 流水 设计 所 需要 的 资源 比 XCV-1000 所 能 提供 的 更 多 。 


需要 注意 的 一 点 是 ， 以 上 讨论 意 在 举例 说 明 在 给 定 的 一 系列 条 件 下 能 得 出 什 
么 样 的 结论 。 在 具体 实践 中 ， 还 要 考虑 其 他 各 种 因素 ， 如 从 测试 集 的 结果 或 者 基于 
SimpleScalar 模拟 器 工具 集 的 应 用 场景 等 得 出 的 数据 究竟 有 多 大 代表 性 。 无 论 什 么 
情况 ， 这 些 分 析 只 用 来 做 出 评估 ， 它 是 仅 用 来 指明 可 行 解决 方案 方向 的 粗略 性 评 
估 。 在 使 用 适当 的 设计 工具 对 设计 进行 细 化 时 ， 这 些 评估 会 得 到 进一步 确认 。 

男 外 ， 有 两 点 更 深入 的 思考 。 首 先 ， 如 图 7.4 所 示 ， 一 个 AES 的 设计 可 以 
采用 流水 线 技术 和 FPGA 芯片 来 实现 。 为 了 实现 高 于 21Gb/s 的 吞吐 量 ， 具 体 实 
现时 会 在 FPGA 中 开发 专用 技术 架构 ， 如 块 内 存 和 块 乘法 "” 。 

BA, AES 的 核心 经 常 被 用 作 大 型 系统 的 一 部 分 。 如 图 7. 5 所 示 ，AES 核 
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图 7.5 AES SoC 系统 的 QuickMIPS 架构 框图 中 
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心 在 QuickMIPS 设备 的 ViaLink FPGA 架构 "5 。 这 个 设备 包含 了 一 个 独立 的 32 
位 MIPS 4Kc 处 理 器 核心 和 很 多 存储 和 接口 单元 。 另 一 个 例子 就 是 应 用 AES 的 涉 
及 安全 哈 希 方法 的 设计 [8 。 


7.4 应 用 研究 : 三 维 图 形 处 理 器 


本 章节 讨论 三 维 图 形 加 速 器 ， 与 索尼 PS2 架构 类 似 '*1。 研 究 曾 明了 在 得 出 
初始 设计 的 过 程 中 有 以 下 两 个 有 用 的 技术 : 

。 分 析 应 用 被 看 做 一 个 比较 高 层次 的 算法 ， 此 算法 用 来 粗略 估计 如 计算 
量 和 通信 量 的 数据 ， 以 便 形 成 一 个 初始 的 设计 风格 和 设计 组 件 。 

。 原型 ”利用 通用 的 软件 工具 和 现成 的 硬件 平台 开发 出 应 用 的 一 个 简单 版 
本 ， 如 运用 标准 的 个 人 计算 机 或 者 通用 的 FPGA 平台 。 在 开发 过 程 中 ， 将 会 遇 到 
需要 注意 的 一 些 地 方 ， 如 性 能 瓶颈 ; 同时 ， 它 还 将 帮助 鉴别 出 不 需要 进行 优化 的 
组 件 ， 从 而 节省 开发 时 间 。 

ESL 技术 和 工具 5" 吧 通常 可 以 帮助 完成 分 析 和 原型 过 程 。 


7.4.1 分 析 : 处 理 


在 三 维 图 形 学 中 ， 所 有 物体 均 用 三 维 空间 中 的 三 角形 集合 来 表示 ， 并 且 带 有 
影响 图 像 基本 元 素 (像素 ) ， 以 及 使 物体 更 加 真实 的 亮度 和 纹理 信息 。 这 些 三 维 
信息 被 转化 到 二 维 空间 用 来 观看 。 动 画 包括 了 一 系列 在 时 间 上 连续 的 像素 帧 。 

图 形 处 理 流 水 线 〈 见 图 7.6) 中 主要 有 两 步 : 变换 和 光照 ， 光 栅 化 。 下 面 将 
陆续 介绍 它们 。 

需求 ”对 于 变换 和 光照 处 理 ， 假 设 一 帧 包含 了 vv 个 可 见 的 三 角形 ，/ 个 光源 ; 
v 和 / 越 大 ， 物 体 的 真实 度 和 复杂 度 越 高 。 为 了 方便 理解 透视 投影 ， 采 用 四 维 坐 
标 系统 来 表示 : 三 维 空间 信息 和 一 维 表示 三 维 图 像 投影 平面 位 置 的 信息 。 

在 变换 和 光照 处 理 过 程 中 ， 每 个 三 角形 顶点 都 从 世界 坐标 系 转换 到 观察 坐标 
系 ， 这 个 过 程 需要 计算 一 次 4x4 的 矩阵 乘法 ; 然后 将 它们 投影 到 二 维 平面 ， 需 
要 一 次 除法 和 透视 纠正 的 四 次 乘法 。 对 于 每 一 个 顶点 ， 这 个 过 程 可 以 被 近似 为 
24 次 浮 点 乘法 累加 ( Floatingpoint Multiply And Accumulate，FMAC ) ， 浮 点 除法 
被 近似 当做 四 次 FMAC。 光 照 处 理 额外 需要 4 x4 次 乘法 来 旋转 顶点 ， 一 次 点 乘 
和 一 些 进 一 步 的 计算 。 对 于 每 一 个 光照 处 理 需 要 近似 为 20 次 FMAC。 所 以 ， 对 
于 每 一 个 顶点 ， 需 要 (24 +201) 次 FMAC。 在 最 坏 情 况 下 ， 每 个 三 角形 都 有 三 
个 不 同 的 顶点 ， 每 一 帧 需要 v (72 +601) 次 FMAC。 在 最 好 情况 下 ， 相 邻 三 角形 
的 顶点 可 以 共享 ， 每 一 帧 需要 ” (24 +201) 次 FMAC。 
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三 维 世界 坐标 管理 
加 


SG 三 维 世界 坐标 系 中 的 三 角形 和 项 点 












泻 染 后 的 二 维 帧 


图 7.6 三 维 图 形 处 理 流水 线 


假设 每 秒 能 处 理 的 三 角形 为 n 个 ， 每 秒 能 完成 
FMAC 计算 的 次 数 为 m 次 。 若 每 秒 的 帧 数 为 f，n = 
fo, 且 





理想 化 内 存 
(固定 访 存 时 间 ) 






on 
[Oy 


nx (24 +201) <m<n x (72 +601) (7.1) 
4 n=50M (1M=10°), ， 即 每 秒 50M 个 三 角形 ， 且 没有 
光源 (1 =0)， 那么 12000M<m<3600M; # n =30 x 
10'， 即 每 秒 30M 个 三 角形 ， Tm (l=1), MA 
1320M <m <3960M, 
设计 下 面 将 描述 怎么 得 到 能 满足 需求 的 设计 。 
初始 设计 是 以 图 7.7 所 示 的 简单 结构 为 基础 的 ， 这 个 RGR Ee ae 
结构 在 本 书 第 1 章 已 做 了 介绍 。 图 7.7 理想 化 SoC 架构 






理想 化 互联 
(固定 访问 时 间 和 
足够 的 带宽 ) 
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提出 的 设计 方案 是 从 情感 引擎 (emotion engine) 中 获得 灵感 的 ， 情 感 引 擎 
包含 了 两 组 处 理 器 ， 如 图 7. 8 所 示 。 第 一 组 处 理 器 包括 以 下 几 部 分 : 

e CPU 一 个 双 发 射 、128 
fe. 8 AES KESIM 
丽 嘱 sz E 

© 浮 点 处 理 单元 (Floating 
Point Unit, FPU) 支持 基本 的 
FMAC 和 浮 点 除法 。 

e VPU0 矢量 处 理 单元 ， 可 
以 作为 MIPS 处 理 器 的 协 处 理 器 ， 
也 可 以 作为 独立 的 SIMD/VLIW 处 






128 位 总 线 


理 器 。 图 7.8 三 维 图 形 引 警 的 原始 设计 
e PU 图 像 处 理 单元 ,， 解 
码 压 缩 过 的 视频 流 。 


这 些 组 件 使 用 150MHz、128 位 的 总 线 相 连接 。 

第 二 组 处 理 器 包括 以 下 几 部 分 : 

e VPU1 与 VPU0 一 样 ， 但 只 作为 SIMD/VLIW 处 理 器 工作 。 

e GIF 使 用 128 位 总 线 将 数据 分 流 到 图 像 合 成 器 的 图 形 接口 。 

由 于 VPU0 和 VPU1 都 包含 了 四 个 300MHz 浮 点 乘法 器 ， 那 么 它们 的 性 能 应 
该 为 300MHz x 8 =2400M FMAC/s; 这 个 值 是 符合 前 面 得 出 的 1200M<m= 
3960M。 

其 他 的 组 件 这 里 不 详细 进行 描述 。 例 如 IPU， 它 是 解码 压缩 过 的 视频 流 的 图 
像 处 理 单元 。 

需求 ”光栅 化 处 理 需 要 将 每 个 二 维 三 角形 进行 扫描 转换 ， 计 算出 每 个 三 角形 
对 应 的 输出 像素 。 这 个 过 程 通 常 是 使 用 数字 微分 分 析 器 (Digital Differentid Ana- 
“lyzer，DDA) 或 者 另 一 个 画 线 (line-drawing) 方法 。DDA 方法 是 沿 着 三 角形 的 
边 垂直 逐步 进行 的 ， 从 而 使 每 个 水 平 区 间 能 同时 处 理 。 在 每 一 个 区 间 内 ， 需 要 使 
用 更 多 的 DDA 在 适当 的 位 置 插入 Z 值 [用 作 阻 塞 测试 (occlusion testing) ] Bi 
色 和 纹理 信息 。 这 里 忽略 了 顶点 的 DDA， 把 每 个 像素 的 这 个 处 理 过 程 近似 为 需 
要 (2+2t) 次 DDA 操作 。 

设计 若 每 次 DDA 操作 需要 四 条 整数 指令 ， 每 个 像素 的 其 他 操作 (如 比较 
更 新 帧 和 z 缓冲 器 ) 也 需要 四 条 整数 指令 ， 那 么 对 于 每 一 个 处 理 后 的 像素 需要 的 
指令 条 数 为 

4+8(1 +t) (7.2) 
每 当 一 个 像素 被 泻 染 ， 就 要 进行 以 上 步骤 ， 即 使 这 个 像素 已 经 被 泻 染 过 了 。 假 设 
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每 帧 输出 o 个 像素 ， 由 于 重生 的 原因 ， 每 个 输出 像素 需要 重复 计算 p 次 ， 那 么 每 
帧 需要 的 指令 条 数 为 

(12 +8t) xoxp (7.3) 
在 下 面 的 原型 处 理 中 将 会 用 到 以 上 结果 。 注 意 这 里 已 经 忽略 了 顶点 DDA 计算 的 
时 间 ， 所 以 期 望 有 额外 的 跟 v 相关 的 计算 时 间 ， 但 整体 的 计算 时 间 主 要 是 由 每 个 
像素 的 处 理 时 间 组 成 的 。 


7.4.2 分 析 : 互联 


三 维 图 形 处 理 流 水 线 有 两 个 主要 的 任务 间 的 逻辑 通信 通道 : 从 建立 /管理 任 
务 传递 到 变换 任务 的 三 维 三 角形 列表 ; 从 变换 任务 传递 到 泻 染 任务 的 二 维 三 角形 
列表 。 这 两 个 通道 本 质 上 是 无 向 的 : 一 旦 一 个 任务 将 一 个 三 角形 集合 (CER 
三 维 ) 传递 到 下 一 个 阶段 ， 除 了 如 状态 指示 标志 的 明显 的 数据 流 信号 ， 在 通道 
相反 的 方向 上 没有 其 他 的 实质 的 数据 流 。 

需求 “在 第 一 个 通道 ( 即 介 于 世界 管理 和 变换 之 间 的 通道 ) 中 ， 所 有 的 三 
维 坐标 由 三 个 单 精 度 浮 点 数组 成 ， 需 要 4 字 节 x3 = 12 字 节 。 最 小 的 三 角形 ， 即 
每 个 三 角形 仅 包含 三 个 坐标 ， 需 要 3 x 12 字 节 =36 字 节 。 然 而 ， 大 多 数 情况 下 ， 
还 需要 额外 的 信息 ， 如 纹理 信息 和 亮度 信息 。 为 了 支持 亮度 信息 ， 每 个 顶点 足以 存 
储 曲 面 法 线 的 。 这 就 代表 了 无 论 光 源 有 几 个 的 ， 每 个 顶点 的 大 小 均 为 3 x (12 + 
12 x min(1,1))。 对 于 每 个 顶点 ,纹理 信息 需要 额外 的 二 维 纹理 坐标 存储 空间 ; 
假设 纹理 坐标 是 浮 点 数据 类 型 ， 每 个 顶点 每 种 纹理 信息 需要 8 字 节 。 对 于 个 可 
见 的 三 角形 ， 此 通道 的 总 带宽 为 

3n x (12 +12 xmin(1, 1) +8t) (7.4) 
例如 ,假设 n=50 x10, 1=0, t=1， 带 宽 需求 则 为 3GB/s; 假设 n=30 x10°, J = 
1, t=1， 则 带宽 需求 则 为 2. 88GB/s。 

在 第 二 个 通道 中 ， 每 个 点 处 于 屏幕 坐标 系 中 ， 所 以 每 个 点 以 两 个 16 位 整数 
表示 的 。 除 此 以 外 ， 每 个 像素 还 需要 深度 信息 ， 而 深度 信息 是 以 更 大 的 精度 来 存 
储 的 ， 所 以 每 个 顶点 的 总 大 小 为 4 字 节 。 假 定 使 用 了 亮度 信息 ， 则 顶点 也 需要 颜 
色 强 度 信息 ， 即 每 个 通道 1 字 节 ， 或 者 每 个 顶点 近似 4 字 节 : 4+4min (L, 1), 
在 光栅 化 时 ， 每 个 纹理 信息 独立 应 用 ， 所 以 需要 保留 4 字 节 的 坐标 信息 。 所 以 产 
生 的 第 二 通道 的 总 带宽 需求 为 

3nx(4+4xmin(l, 1) +42) (7.5) 
这 样 , 假设 n=50 x 10°, 1=0, 1=1， 带 宽 需 求 则 为 1.2GB/s; 假设 n=30 x 
10°, L=1, 1 =1， 则 带宽 需求 则 为 1. 08GB/s。 

设计 如 图 7.8 所 示 ， 互 联 总 线 为 128 位 。 由 于 128 位 工作 在 150MHz 的 总 
线 的 最 高 传输 速率 为 2.4GB/s， 这 只 满足 了 第 二 个 通道 的 带宽 需求 而 不 能 满足 第 
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一 个 ， 因 此 需要 增加 一 个 额外 的 专用 的 接口 供 演 染 引擎 使 用 。 


7.4.3 ”原型 技术 


三 维 演 染 器 原型 是 使 用 C 语言 编写 的 。 此 原型 融合 了 世界 坐标 管理 阶段 、 
变换 阶段 和 基于 z 缓冲 器 的 演 染 器 。 世 界 坐标 管理 阶段 创建 三 角形 的 随机 模式 ; 
变换 阶段 将 三 角形 投影 到 二 维 三 精度 浮 点 平面 ; z 缓冲 器 泻 染 器 采用 了 整数 
DDA。 演 染 器 的 参数 可 以 分 为 以 下 几 种 : 

。 三 角形 的 个 数 ; 

。 三 角形 的 大 小 ; 

。 输出 的 高 度 和 宽度 。 

通过 调整 以 上 参数 ， 可 以 选择 性 地 调整 如 o。、v 和 等 参数 。 例 如 ， 通 过 增 
加 三 角形 的 大 小 可 以 调整 参数 p， 因 为 这 样 可 以 增加 每 个 三 角形 与 其 他 三 角形 重 
BHU. | 

图 7.9 给 出 了 当 输 出 像素 个 数 增加 时 Athlon 1200 上 各 阶段 执行 时 间 的 变化 。 
正如 预期 所 示 ， 在 创建 阶段 和 变换 阶段 ， 随 着 输出 像素 个 数 的 增加 ， 执 行 时 间 没 
有 明显 的 变化 。 相 反 ， 在 泻 染 阶段 执行 时 间 随 着 输出 像素 的 个 数 线性 增长 。 拟 合 
直线 具有 很 好 的 线性 相关 系数 : 0. 9895 。 光 栅 化 时 间 和 像素 个 数 之 间 的 拟 合 线性 
关系 由 式 (7.3) 给 出 : t=0x5x10~* +0. 0372, 0.0372 的 大 偏 移 是 由 在 分 析 这 
一 节 提 出 的 每 个 三 角形 的 建立 时 间 引 起 的 。 基 于 此 原型 ， 可 以 感觉 到 这 种 影响 是 
合适 的 ， 因 为 它们 比 预 期 的 更 有 意义 。 
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7.9 当 输 出 像素 个 数 增 加 时 Athlon1200 上 各 阶段 执行 时 间 的 变化 
根据 式 〈7.2) ， 在 没有 纹理 信息 (:=0) 的 条 件 下 ， 每 个 输出 像素 的 指令 


数 为 p x12。 在 本 次 实验 中 p=1.3， 所 以 每 帧 的 指令 数 为 15.6。Athlon1200 的 官 
方 性 能 为 1400MIPS (Million Instructions Per Second， 百 万 条 指令 每 秒 ) ， 依 据 此 
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模型 ， 每 个 额外 的 像素 需要 (守卫 x10)s =1.1 x10-*s。 对 比 预测 的 1.1 x 
10-*s 和 实际 观测 到 的 5 x10-?s， 可 以 看 出 后 者 几乎 是 前 者 的 5 倍 。 产 生 这 个 错 
误 的 主要 原因 是 原型 的 未 优化 本 质 和 模型 中 的 近似 处 理 。 

图 7. 10 和 图 7. 11 给 出 了 变换 阶段 在 不 同 FPU 数量 条 件 下 的 性 能 ， 此 测试 
使 用 PISA 模拟 器 "完成 。 当 使 用 四 个 乘法 器 时 ， 性 能 得 到 了 显著 提高 ， 即 使 全 
用 超过 4 个 乘法 器 只 带 来 了 很 小 的 收益 。 这 就 表示 一 个 能 同时 处 理 四 个 浮 点 运算 
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图 7. 10 ”对比 初 始 版 本 和 完全 展开 版 本 ， 不 同 数量 浮 点 乘法 器 条 件 下 图 形变 换 阶 段 的 
执行 时 间 变 化 〈 队 列 长 度 、 发 射 宽度 和 提交 宽度 都 固定 为 相对 较 大 的 恒定 值 ) 
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图 7.11 对 比 初 始 版 本 和 完全 展开 版 本 ， 不 同 数量 FPU (乘法 器 /ALU) 条 件 下 图 形变 换 
阶段 的 执行 时 间 变 化 队列 长 度 、 发 射 宽度 和 提交 宽度 随 着 FPU 数量 而 变化 。 图 中 
也 给 出 了 处 理 器 的 全 部 近似 面积 和 FPU 的 近似 面积 ， 单 位 为 rtbe 
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的 VLIW 或 者 SIMD 处 理 器 将 会 是 高 效 的 。 图 中 也 给 出 矩阵 乘法 循环 展开 的 情况 
下 的 性 能 ， 而 不 是 使 用 双重 嵌 套 循环 来 实现 。 展 开 循 环 更 好 地 利用 了 处 理 器 的 
FPU, 但 是 所 得 到 的 加 速 比 需要 的 开销 也 大 。 最 后 ， 图 7. 12 给 出 展开 变换 阶段 
不 同 数量 浮 点 乘法 器 和 ALU 面积 和 性 能 增长 的 对 比 8 个 浮 点 乘法 器 和 16 个 ALU 
情况 具有 单位 面积 的 最 高 性 能 。 





1/1 1/4 4/8 8/16 16/32 
FPU (乘法 器 /ALU) 数量 


图 7. 12 展开 变换 阶段 不 同 数量 浮 点 乘法 器 和 ALU 在 面积 和 性 能 增长 的 对 比 
(最 大 性 能 面积 比 所 对 应 的 配置 为 8 个 浮 点 乘法 器 和 16 个 ALU) 


本 节 论 证 了 应 用 模型 在 具有 大 量 计算 特征 的 三 维 引擎 应 用 中 提供 了 非常 有 用 
的 预测 功能 。 尽 管 由 于 估计 指令 数 的 原因 导致 了 预测 时 间 不 准确 ,但 是 它们 表现 
出 来 的 整体 趋势 依然 可 以 作为 未 来 开发 的 依据 。 这 个 简单 分 析 唯 一 没有 预测 的 是 
随 着 三 角形 个 数 的 增加 光栅 化 时 间 的 增长 趋势 。 


7.5 HARR: 图像 压缩 


帧 内 操作 在 如 JPEG 的 静态 图 像 压 缩 方法 和 如 MPEG, H. 264 等 视频 压缩 方 
法 中 都 很 常见 。 它 们 包括 色彩 空间 转换 科 编码 (Entropy Coding，EC ) 。 视 频 
压缩 方法 通常 还 包含 了 帧 间 操 作 ， 如 利用 连续 视频 帧 的 相似 性 的 运动 补偿 ( Mo- 
tion Compensation, MC), 。 这 将 在 7. 6 节 进 行 说 明 。 


7.5.1 JPEG 压缩 


JPEG 压缩 方法 对 每 个 像素 使 用 了 24 位 ， 分 别 对 应 红 、 绿 和 蓝 (Red Green 
and Blue, RGB) 各 8 位 。 它 可 以 实现 有 损 和 无 损 压 缩 。 压 缩 过 程 主 要 有 以 下 
="), 

第 一 步 ， 色 彩 空间 转换 。 图 像 从 RGB 色彩 空间 转换 到 其 他 的 色彩 空间 ， 如 
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YCbCr。Y 分 量 代表 了 像素 的 亮度 ，Cb 和 Cr 分 量 代表 了 色 度 或 色彩 。 相 比 Ch 和 
Cr 分 量 ， 人 眼睛 对 Y 分 量 更 加 敏感 ， 所 以 对 Cb 和 Cr 分 量 采 用 了 缩减 像素 采样 。 
JPEG 中 缩减 像素 采样 比 可 以 为 4 :4 : 4 (无 缩减 )、4 : 2 : 2 水 平方 向 减 半 ) 
和 常见 的 4 : 2 : 0 (水 平和 垂直 方向 均 减 半 ) 。 对 于 压缩 处 理 的 后 半 部 分 ，Y、 
Cb 和 Cr 采用 相似 的 方式 分 别 单独 处 理 。 这 三 个 分 量 组 成 了 图 7. 13 所 示 的 输入 
部 分 。 


Zigzag 





图 7.13 JPEG 压缩 的 模块 图 。 其 中 色彩 空间 转换 没有 给 出 


第 二 步 ， 离 散 余 弦 变 换 (Discrete Cosine Transform，DCT) ， 如 图 7. 13 Ara. 
图 像 像 素 的 每 个 分 量 (Y, Cb, Cr) 被 划分 为 8 x8 的 块 ， 使 用 二 维 正 向 离散 余 
弦 变 换 (DCT, KH) 将 每 块 乘 以 8 x8 的 矩阵 ， 从 而 将 此 块 转换 到 频 域 中 。 
由 于 低频 像素 代表 了 图 像 的 大 部 分 信息 ， 所 以 可 以 使 用 量化 ( 另 一 个 矩阵 运算 ) 
来 减少 高 频 的 信息 。 

B=, TS. MSTA TCH BE ENP TIE. BAHAR 
据 按 “Zigzag” 顺 序 进行 排序 ， 从 而 使 低频 分 量 排 在 前 面 ; 然后 使 用 行程 编码 
(Run-Length Coding, RLC) 算法 将 相近 频率 的 数据 集合 到 交流 分 量 ， 使 用 差分 
脉冲 编码 调制 (Differential Pulse Code Modulation, DPCM) 将 相近 频率 的 数据 集 
合 到 直流 分 量 ; 最 后 使 用 哈 夫 曼 编 码 或 者 算术 编码 处 理 以 上 得 出 的 数据 。 尽 管 算 
术 编 码 能 得 出 更 好 的 结果 ， 但 是 编码 过 程 也 很 复杂 。 

为 了 估算 操作 量 ， 以 二 维 kxk 离散 余弦 变换 为 例 ， 需 要 计算 : 


yi = >» Ci, j%j 
AH, 0 <i<k; x 为 输入 ; c 为 离散 余弦 变换 系数 ; y 为 输出 。 这 需要 完成 次 
图 像 数 据 装载 ,，k 次 系数 数据 装载 ，k 次 乘 累 加 ， 以 及 一 次 数据 存储 。 所 以 ， 对 
于 每 个 像素 ， 总 计 和 需要 3k + 1 次 操作 。 因 此 ， 对 于 kxk 块 的 行列 分 解 的 DCT, 
需要 2k (3k+1) 次 操作 。 
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对 于 帧 率 为 ft/s W nxn 分辨 率 的 情况 ， 所 需要 的 操作 次 数 为 2fn (3k +1). 
两 种 常见 的 格式 为 通用 中 间 格 式 (Common Intermediate Format，CIF) 和 四 分 之 
一 通用 中 间 格 式 (Quarter CIF，QCIF) ， 分 别 对 应 为 352 x288 像素 和 176 x 144 
像素 的 分 辨 率 。 

对 于 色彩 空间 为 YCbCr， 帧 格式 为 QCIF， 采 样 率 为 4:2 :0, 有 594 个 8x8 
WR, WEA 15f/s 的 情况 ， 所 需要 的 总 操作 次 数 为 2 x 15 x594 x8x8x 
(24 +1) =28. 5MOPSS。 对 于 CIF 帧 格式 ， 需 要 114MOPS。 

通常 ， 无损 压 缩 能 达到 三 倍 的 压缩 效果 ， 而 有 损 压缩 可 以 高 达 25 倍 的 压缩 
效果 。 


7.5.2 实例 : 数字 静态 相机 中 的 JPEG 系统 


数字 静态 相机 (digital still camera) 的 一 个 典型 的 图 像 处 理 流水 线 如 
图 7. 14 所 示 。TMS320C549 处 理 器 接收 到 SDRAM 的 16 x 16 像素 块 后 开始 进 
人 图 像 处 理 流水 线 。 


(optical 
black 
clamp) 


RGB 到 YCbCr 
色彩 空间 转换 





图 7.14 静态 相机 "*1 的 模块 图 
@ CFA; Color Filter Array， 彩 色 滤 波 阵 列 。 


由 于 TMS320C549 处 理 器 拥有 一 个 32K 的 16 位 RAM 和 一 个 16K 的 16 位 的 


© MOPS: Million Operations Per Second， 每 秒 百 万 次 操作 。 


226 计算 机 系统 设计 : 片上 系统 


ROM, 而 16 x16 像素 块 所 需要 的 存储 空间 很 少 ， 所 以 所 有 的 图 像 处 理 流水 线 操 
作 都 可 以 在 片上 执行 。 这 样 ， 处 理 时 间 将 会 保持 很 短 ， 因 为 不 需要 进行 延迟 较 长 
的 外 部 访 存 操作 。 

此 处 理 器 的 性 能 高 达 100MIPS， 且 功 耗 较 低 ， 仅 有 0.45mA/MIPS, # 7.4 
给 出 了 TMS320C54X 处 理 器 的 性 能 ， 包 括 了 图 像 处 理 流 水 线程 序 各 个 不 同 阶 
段 所 需要 的 精确 的 时 钟 拍 数 。 对 于 每 个 像素 ， 包 含 了 整个 JPEG 的 图 像 处 理 流 
水 线 需要 大 约 150 拍 , 或 者 相当 于 一 个 100MIPS、100MHz 的 处 理 器 执行 了 
150 条 指令 。 


表 7.4 TMS320C54X 的 性 能 023] 











任 务 拍 /像素 
预 处 理 ， 如 捕获 、 白 平衡 22 
色彩 空间 转换 10 
插值 41 
边缘 增强 ， 伪 彩色 抑制 27 
4 : 1 : 1 抽取 ，JPEG 编码 62 
共计 162 


一 个 工作 在 100MHz 的 TMS320C54x 处 理 器 能 够 在 1. 5s 内 处 理 1 张 百 万 像素 
电荷 耦合 器 件 (Charge Coupled Device, CCD) 图 像 。 这 个 处 理 器 支持 2s 的 拍摄 
延迟 ， 其 中 包含 了 将 数据 从 外 部 存储 传输 到 片上 存储 。 数 字 相 机 同样 必须 支持 用 
户 在 LCD 屏幕 上 或 者 是 在 一 个 外 部 的 电视 显示 器 上 显示 拍摄 的 照片 。 由 于 拍摄 
的 照片 存储 在 闪存 上 ， 所 以 SoC 还 需要 一 个 回 显 程序 。 

假如 图 像 是 以 JPEG 比特 流 的 方式 存储 ， 回 显 程序 将 它们 进行 解码 ， 并 缩放 
到 合适 的 分 辨 率 ， 然 后 将 它们 显示 在 LCD 屏幕 或 者 外 部 电视 显示 器 上 。 工 作 在 
TMS320C54x 处 理 器 上 的 回 显 程序 能 够 在 100 拍 内 处 理 一 个 像素 ， 即 支持 了 百 万 
级 像素 图 像 的 1s 回 显 速度 。 

此 处 理 器 需要 1.7KB 的 指令 存储 和 4. 6KB 的 数据 存储 来 支持 图 像 处 理 流水 
线 和 JPEG 标准 的 图 像 压 缩 。 完 整 的 图 像 处 理 流水 线程 序 存 储 在 片上 ， 这 就 减少 
了 外 部 访 存 的 次 数 ， 从 而 使 应 用 慢 速 外 存 成 为 可 能 。 这 种 结构 不 仅 能 提高 性 能 ， 
而 且 能 降低 成 本 和 提高 能 效 。 

近年 来 ， 数 码 相 机 中 的 芯片 需要 额外 支持 图 像 压 缩 、 视 频 压 缩 、 音 频 处 理 和 
无 线 通信 5 。 图 7. 15 给 出 带 视频 、 音 频 和 网 络 处 理 能 力 的 相机 芯片 模块 图 ， 
包括 了 这 种 芯片 的 几 个 关键 部 分 。 
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图 7.15 带 视频 、 音 频 和 网 络 处 理 能 力 的 相机 芯片 模块 图 





7.6 应 用 研究 : 视频 压缩 


表 7.5 给 出 了 一 些 常见 的 视频 格式 ， 包 括 了 各 种 不 同 应 用 中 的 常用 视频 格式 
及 相关 的 压缩 方法 ， 如 MPEG1, MPEG2 和 MPEG4。 视 频 质量 是 由 比特 率 和 视频 
分 辨 率 决 定 的， 比特 率 越 高 ， 视 频 分 辨 率 越 高 ， 就 代表 了 视频 质量 越 好 ， 但 同时 
意味 着 更 高 的 带宽 需求 。 


表 7.5 一 些 常见 的 视频 格式 


HDDVD HDTV AVI DivX MOV 
格 式 VCD SVCD DVD A i ; 
( WMVHD) XviD WMV Quick-Time 


640 x480 * 


MPEG4 
3 MPEC2, MPEG2 
视频 压缩 MPEG1 MPEG2 MPEG4 ( 源 于 Sorenson 
方法 MPEG1 ( WMV-MPEG4 ) j 
Media) 
20Mb/st 
视频 | 1150 Kb/s | 2000 Kb/s! 7 1000 Kb/st 1000 Kb/st 
比特 率 (8Mb/st ) 
10 ~20 30 ~70 150 MB/mint 
每 分 钟 | 10 MB/min mA | 4~10 MB/min |4~20 MB/min 
数据 量 MB/min MB/min (60MB/min' ) 


(WF: http: //www. videohelp. com/sved ) 
* 近似 分 辨 率 ， 可 以 高 于 也 可 以 低 于 此 值 。 
+ 近似 比特 率 ， 可 以 高 于 也 可 以 低 于 此 值 。 
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另 一 组 压缩 方法 有 H. 261、H. 262 、H. 263 和 H. 264 ， 其 中 有 一 些 与 MPEG 
方法 是 相关 的 。 例 如 ，MPEG?2 与 H. 262 是 一 样 的 ，H. 264 与 MPEG4/Partl0 是 一 
样 的。 通常 越 新 的 方法 ， 如 H. 264， 提 供 了 越 高 的 视频 质量 和 越 高 的 压缩 比 。 下 
面 大 致 介绍 一 下 这 些 视频 压缩 方法 '“”"  ， 但 不 做 详细 的 描述 。 


7.6.1 MPEG 和 H. 26X 视频 压缩 : 需求 


除了 前 面 描述 的 静态 图 像 的 帧 内 压缩 方法 ,视频 压 缩 方法 通常 还 包括 了 如 运 
动 估 计 等 帧 间 压 缩 方法 。 在 标准 视频 编码 里 ， 运 动 估计 具有 最 多 的 操作 次 数 ， 如 
下 面 显示 了 H. 261 压缩 方法 对 单 帧 为 CIF 格式 、352 x288 像素 的 帧 率 为 30f/s 的 
视频 流 的 需求 : 

压缩 需要 968MOPS， 则 有 





RGB 转换 为 YCbCr 27 
运动 估计 608 (在 16 x16 的 区 域内 进行 25 次 搜索 ) 

帧 内 / 帧 间 编 码 40 

循环 滤波 55 

像素 预测 18 

二 维 DCT 60 

量化 和 zigzag 扫描 44 

Ri FATS 17 

帧 重建 99 


大 多 数 压缩 标准 的 计算 量 都 是 不 对 称 的 ， 即 解压 比 压 缩 容 易 。 例 如 H. 261, 
解压 的 操作 量 〈 大 约 200MOPS) 大 约 是 压缩 (1000MOPS) 的 20% 。 
解压 需要 198MOPS， 则 有 





MPEG 运动 估计 方法 涉及 三 种 帧 〈 见 图 7. 16) 。 第 一 种 ，I 帧 ， 它 不 包括 运 
动 信息 ， 所 以 类 似 有 损 JPEG 格式 。 第 二 种 ，P 帧 ， 它 包含 了 基于 前 面 的 1 帧 的 
运动 预测 信息 ; 它 也 包含 了 运动 矢量 (Motion Vector, MV) 和 误差 项 。 由 于 误 
差 项 都 较 小 ， 所 以 量化 会 得 到 很 好 的 压缩 比 。 第 三 种 ，B 帧 ， 它 是 双向 帧 ， 同 时 


© IDCT; Inverse DCT， 反 离散 余弦 变换 。 
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包含 了 基于 前 面 和 后 面 的 工 帆 或 者 P 帧 的 运动 预测 信息 。 
运动 估计 的 目的 就 是 利用 参考 帧 的 信息 。I 帧 作为 静态 图 像 编 码 ， 不 依赖 任何 参考 帧 
来 描述 当前 帧 的 信息 。 参 考 帧 通常 就 是 编 解 
码 顺序 中 当前 帧 的 前 一 帧 的 重建 版 本 。 | | hey eel 
H. 264 等 视频 压缩 方法 的 运动 估计 器 中 ， 
这 些 成 对 的 帧 对 像素 值 进行 处 理 。 基 于 运动 。? 帧 依赖 前 面 显示 的 参考 由 


估计 器 的 操作 ， 当 前 帧 的 像素 值 交替 使 用 一 
组 两 个 值 进 行 表示 : 基于 参考 帧 的 预测 像素 Ga bra 
值 加 上 预测 误差 。 预 测 误差 代表 着 当前 帧 的 


预测 像素 值 与 真实 像素 值 之 间 的 差别 。 。B 帧 依赖 前 面 和 后 面 的 参考 帧 


运动 估计 器 的 功能 可 以 用 以 下 方式 来 解 
释 。 假 如 原始 视频 序列 中 的 一 个 运动 物体 在 
当前 帧 中 以 一 组 像素 来 表示 ， 同 时 它 也 以 重 四 Wt Wa 


建 顺序 中 的 前 一 帧 的 一 组 像素 来 表示 。 重 建 的 
顺序 决定 了 参考 帧 。 为 了 达到 压缩 效果 ， 当 ”图 7 16 MPEC 运动 估计 中 的 三 种 由 
前 帧 中 物体 的 代表 像素 是 以 参考 帧 中 的 像素 值 推理 出 来 的 。 参 考 帧 中 代表 物体 的 
像素 值 被 称 为 预测 器 ， 因 为 它 预测 了 当前 帧 中 的 物体 的 像素 值 。 预 测 器 通常 需要 
一 些 变化 来 获取 当前 帧 中 真实 像素 值 ， 这 些 变化 被 称 为 预测 误差。 

在 基于 块 的 运动 估计 中 ， 当 前 帧 中 的 物体 边界 被 假定 为 沿 着 宏 块 的 边界 对 
齐 。 基 于 此 假设 ， 帧 中 描述 的 物体 可 以 用 一 个 或 者 多 个 宏 块 来 表示 。 单 个 宏 块 内 
部 的 所 有 像素 都 具有 相同 的 运动 特征 。 这 些 运 动 特征 用 宏 块 的 运动 矢量 来 表示 ， 
这 个 矢量 是 从 当前 帧 的 宏 块 像素 位 置 指向 它 的 预测 器 的 像素 位 置 。 视 频 编码 标准 
没有 规定 运动 矢量 和 预测 误差 是 怎么 获得 的 。 

图 7. 17 给 出 了 运动 估计 的 过 程 。 通 常 ， 运 动 估计 只 处 理 帧 的 亮度 部 分 ， 所 以 
每 个 宏 块 对 应 了 16 x16 个 亮度 像素 。 当 前 帧 被 划分 为 不 重 琶 的 宏 块 ， 对 于 每 个 宏 






国 目 - mg -OE 


原始 帧 。 预测 器 。 “预测 误差 





参考 帧 


图 7.17 运动 估计 的 过 程 
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块 ， 运 动 估计 器 需要 指定 一 个 同样 也 是 一 个 16 x 16 的 方形 预测 器 。 预 测 器 同样 也 
可 以 被 看 做 是 一 个 宏 块 ， 预 测 器 依据 是 它 与 当前 帧 中 的 宏 块 的 相似 度 来 选择 。 

H. 264 等 视频 编码 标准 没有 规定 宏 块 相似 度 的 衡量 标准 ， 一 个 很 常见 的 标准 
是 绝对 距离 的 总 和 (SAD) 标准 ，SAD 方法 就 是 计算 两 个 宏 块 中 相对 应 亮度 像 
素 的 SAD 值 。 

参考 帧 搜索 区 域内 的 所 有 宏 块 都 要 使 用 SAD 方法 计算 出 SAD 值 。SAD 值 越 
大 代表 着 这 两 个 宏 块 的 区 别 越 大 。 最 小 SAD 值 的 宏 块 将 作为 预测 器 宏 块 。 

很 多 视频 压缩 标准 都 要 求 搜索 区 域 为 矩形 且 搜索 区 域 必须 位 于 原始 宏 块 的 坐 
标 系 上 。 甜 形 的 维度 是 可 调节 的 ,但 是 不 能 超过 标准 规定 的 最 大 值 。 

运动 搜索 就 是 寻找 最 佳 匹配 的 预测 器 宏 块 ， 视 频 压缩 标准 通常 也 不 会 规定 运 
动 搜 索 策略 。 当 前 已 经 有 很 多 运动 搜索 方法 被 提出 来 了 。 其 中 一 种 可 能 的 搜索 方 
法 就 是 穷尽 (或 全 部 ) 搜索 ， 即 对 搜索 区 域内 的 所 有 可 能 的 宏 块 都 进行 搜索 ， 
这 种 策略 能 够 保证 得 到 的 SAD 值 是 搜索 区 域内 全 局 最 小 的 。 但 是 ， 穷 尽 搜索 的 
计算 代价 非常 大 ， 穷 尽 搜 索 由 于 其 规则 性 ， 所 以 主要 会 被 便 件 设计 者 采用 。 

图 7.18 给 出 了 不 同 视频 压缩 方法 的 带宽 和 存储 ， 是 不 同 压 缩 方法 压缩 
90minDVD 质量 的 视频 所 需要 的 带宽 大 小 和 存储 大 小 。 
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a) b) 
图 7.18 不 同 视频 压缩 方法 的 带宽 和 存储 


a) 带宽 b) 存储 
@ ASP; Active Simple Profile， 主 动 采样 技术 ， 是 MPEG-4 的 一 个 版 本 。 


观察 压缩 或 者 解压 算法 各 个 操作 的 执行 时 间 百 分 比 时 ， 可 以 发 现 运 动 补 偿 和 
运动 估计 通常 占据 最 多 的 分 量 。 例 如 ，H. 264/AVC (高 级 视频 编码 ) 解压 算法 
包含 了 四 个 主要 步 又: ashe, MAR. MMAR. WA 7. 19 所 
示 ， 其 中 运动 补偿 需要 开销 最 多 的 时 间 。 

压缩 算法 也 有 相同 的 结论 。 例 如 H. 263 软件 编码 "1 中 运动 估计 占 了 约 95% 
的 执行 时 间 ( 见 图 7. 20)。 
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其 他 ，7% 






整数 转换 ，11% 


去 块 滤波 ，6% 
运动 补偿 ，45% 


RIBS, 31% 


图 7.19 H. 264/ AVC 解压 的 核心 阶段 对 比 


重建 ，1.26% 


DCT/ 量 化 ，2.56% 其 他 ，078% 





运动 估计 ，95.40% 


图 7.20 采用 半 像 素 穷尽 运动 搜索 “"] 的 基本 编码 方式 的 H. 263 编码 核心 阶段 的 对 比 


7.6.2 H. 264 加 速 : 设计 


H. 264 是 最 常见 的 视频 格式 之 一 。 它 作为 一 个 国际 标准 ， 已 经 被 很 多 DVB 
和 3G 等 广播 和 移动 通信 标准 所 采用 。 它 的 编码 效率 使 视频 流 等 新 的 应 用 成 为 
可 能 。 

H. 264 包含 了 视频 压缩 中 的 运动 估计 和 其 他 方法 等 高 级 算法 。 对 于 运动 估 
计 ， 它 支持 16 x 16 个 像素 到 4 x4 个 像素 的 宏 块 大 小 。 对 4 x4 的 宏 块 使 用 残留 
数据 转换 来 消除 舍 信 误差， 残留 数据 转换 的 方法 为 改进 的 整数 DCT, 

相 比 以 前 的 标准 ，H. 264 具有 更 好 的 性 能 ， 原 因 在 于 它 的 搜索 范围 更 宽 ， 具 
备 多 参考 帧 ， 并 且 运 动 估计 和 运动 补偿 采用 更 小 的 宏 块 (这 将 导致 计算 中 更 多 
的 装载 次 数 ) 。 为 了 满足 多 种 不 同 的 编码 任务 ， 如 运动 估计 中 的 各 项 操作 ， 
H. 264 需要 更 高 速度 的 内 存 和 高 度 流水 化 的 设计 。 

现在 考虑 两 种 方式 。 第 一 种 方式 是 以 可 编程 或 者 专用 硬件 来 实现 这 些 任务 。 
例如 ， 有 一 项 最 新 的 设计 以 不 同 的 硬件 技术 实现 了 基本 的 H.264/AVC 编码 核 
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RO) ， 包 括 以 下 几 项 ( 见 表 7.6): 

e 4CIF (704 x576), 30f/s; 低 成 本 的 FPCA Xilinx Spartan-3 和 Altera Cy- 
clone- 工 。 

e 720P, 30f/s; 高 端 FPCA，Xilinx Virtex-4 和 Altera Stratix- 工 。 

e 1080P, 30f/s; 0. 134m ASIC, 


表 7.6 H.264/AVC 编码 的 FPGA 设计 和 ASIC igit 


0. 13pm LV 178K 门 + 106Kb RAM, pee 1920 x 1080 (1080P) 
0.9V, 125C 为 速度 做 了 优化 á WZA 30f/s 
0. 184m 129K 门 + 106Kb RAM, ian 4CIF (704 x576) 
低速 工艺 为 速度 做 了 优化 帧 率 为 30f/s 
17511 ALUT® +5M512 + 1280 x720 (720P) 
StratixllC3 约 118 
18510M4K® + 5M512 + 4CIF (704 x576) 
CyclonellC6 4 65 
RE 51M4K +3DSP 约 帧 率 为 40f/s 
10600 片 (Sli 3 
Viisas Fr (Slice) +3 乘法 约 110 1280 x720 (720P) 
器 +33RAM dh 帧 率 为 30f/s 
10600 li 
Sp P 0600 # (Slice) +3 Æ 约 50 4CIF (704 x576) 
artan 法 器 +33RAM 块 帧 率 为 30f/s 


@ ALUT: Adaptive Lookup Table， 自 适应 查找 表 。 
@ M4K: 一 种 可 配置 内 存 块 ， 总 大 小 为 4608bit。 


第 二 种 方式 是 以 本 书 6. 5. 3 节 介绍 的 软件 可 配置 处 理 器 来 实现 这 些 任务 ， 此 
处 理 器 具有 指令 集 可 扩展 结构 ， 用 来 支持 实现 定制 需求 的 操作 ， 即 定制 指令 
(也 称 为 扩展 指令 ) 。 这 里 使 用 的 是 一 个 300MHz 的 Stretch S5 处 理 器 ， 它 能 达到 
30f/s 对 标清 (Standard Definition, SD) 格式 的 视频 流 进行 H. 264 进行 编码 052] 。 
下 面 将 深入 了 解 此 方法 。 

一 个 成 功 的 实时 视频 编码 应 用 必须 能 够 为 特定 的 屏幕 分 辩 率 传递 最 好 的 图 像 
质量 ， 这 将 受到 现实 世界 的 限制 。 例 如 ， 一 个 未 压缩 的 720 x 480 像素 的 视频 流 ， 
每 个 像素 需要 1. 5B 的 颜色 信息 。 这 样 的 视频 流 每 帧 需要 518KB， 在 30f/s 的 条 
件 下 ， 它 需要 15. 5MB/s 的 存储 能 力 和 带宽 。 

图 7. 21 给 出 了 H. 264 编码 架构 。 这 种 编码 方式 的 效率 可 以 从 以 下 功能 的 实 
现 中 看 出 : 

1. 前 向 DCT 和 IDCT。 

2. 利用 前 向 和 反 矢 量化 进行 帧 内 预测 。 
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3. 去 块 滤波 。 
4. 利用 帧 间 对 比 进行 运动 估计 。 





7.21 H. 264 编码 架构 0221 


由 于 需要 的 计算 量 的 限制 ， 以 上 方法 都 可 以 作为 硬件 加 速 的 主要 备 选 项 。 通 
过 利用 这 些 算法 的 内 部 并 行 性 可 以 获得 额外 的 加 速效 果 。 

DCT 考虑 对 4 x4 的 亮度 像素 块 进行 二 维 DCT 和 量化 操作 。 利 用 对 称 性 和 
公共 子 表 达 式 ，DCT 部 分 的 矩阵 计算 可 以 被 缩减 为 64 次 加 减 计算 。 所 有 的 64 次 
操作 可 以 被 ISEF 中 的 一 条 定制 指令 来 实现 。 

量化 (Q) 这 一 步 在 DCT 之 后 。 将 量化 操作 用 简单 的 乘法 和 移 位 操作 来 
实现 ， 可 以 避免 计算 量 较 大 的 除法 操作 。 将 亮度 像素 用 DCT +Q+IDCT+IQ 进 
行 编 码 和 解码 的 过 程 一 共 需 要 594 次 加 法 、16 次 乘法 和 288 次 选择 (采用 多 路 
选择 器 ) 。 

去 块 滤波 ISEF 的 128 位 总 线 需 要 1 拍 将 一 行 8 个 16 位 的 预测 数据 装载 进 
来 。 所 以 在 编译 器 能 够 识别 出 函数 的 内 部 并 行 性 的 条 件 下 ， 一 条 ISEF 指令 就 可 
以 替代 多 条 传统 指令 。 使 用 标准 处 理 器 对 4 x4 的 宏 块 进行 这 些 处 理 需 要 超过 
1000 拍 ， 但 在 软件 可 配置 的 处 理 器 中 执行 只 需要 105 拍 ， 相 当 于 10 倍 的 加 速 
比 。 因 此 一 个 30f/s、720 x480 像素 的 视频 流 只 需要 RISC 处 理 器 的 14.2% 的 利 
用 率 ， 因 为 任务 的 大 部 分 都 被 卸载 到 ISEF 里 。 增 加 子 宏 块 大 小 可 以 提高 并 行 性 ; 
例如 ， 对 两 个 4 x4 宏 块 并 行进 行 处 理 能 减少 一 半 的 执行 时 间 ， 使 RISC 处 理 器 的 
利用 率 降低 到 7. 1% ,原因 是 ISEF 承担 了 更 重 的 负载 。 

加 速 去 块 滤波 要 求 开 发 者 将 条 件 代码 减 到 最 少 。 不 需要 决定 计算 什么 值 ， 取 
而 代 之 的 是 更 高 效 地 创建 一 条 定制 指令 ， 定 制 指令 用 硬件 计算 所 有 的 结果 ， 然 后 
选择 出 合适 的 结果 。 
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将 IDCT 阶段 的 128 位 结果 进行 重新 排序 ， 从 而 简化 了 将 16 个 8 位 的 边缘 像 
素数 据 打包 为 一 个 128 位 的 数据 包 并 提供 给 去 块 定制 指令 的 过 程 。 在 ISEF 和 指 
令 中 的 状态 寄存 器 能 实现 对 宏 块 参数 的 预计 算 ， 这 是 另 一 个 可 选 的 优化 方法 。 

滤波 器 的 内 部 循环 装载 128 位 的 寄存 器 值 ， 执 行 去 块 滤波 定制 指令 ， 每 条 指 
令 能 计算 两 条 边 。 由 于 同样 的 定制 指令 能 够 用 于 水 平和 垂直 方向 的 滤波 ， 所 以 不 
需要 额外 的 开销 。 

内 部 循环 需要 3 拍 完成 ,并且 执行 两 次 (水 平和 垂直 方向 ) ， 循 环 的 额外 开 
销 大 概 为 20 拍 。 若 每 兆 字 节 数据 有 64 条 边 ， 那 么 大 约 需要 416 (BI 64/4 x26) 
拍 来 处 理 这 1MB 数据 。 对 于 分 辩 率 为 720 x 480、 帧 率 为 30f/s 的 视频 流 ， 大 约 
需要 16. 8 兆 拍 每 秒 ， 或 大 约 5.2% 的 处 理 器 利用 率 。 

运动 估计 已 经 知道 这 部 分 消耗 了 处 理 器 的 大 部 分 资源 (50% ~60% ) È 
的 关键 计算 需求 就 是 重复 的 计算 SAD 值 来 获得 最 匹配 的 运动 矢量 。 

运动 估计 需要 进行 重复 性 的 数据 计算 和 比较 ， 并 且 有 很 多 重复 使 用 的 中 间 结 
果 。 传 统 处 理 器 和 DSP 有 限 的 寄存 器 空间 不 能 满足 这 些 大 的 数据 集 存 储 需求 。 
同时 ， 这 些 处 理 器 和 DSP 设计 从 数据 缓存 中 获取 的 数据 很 难 满足 固定 计算 和 乘 
法 单元 的 需求 。 

使 用 Stretch S5 软件 可 配置 处 理 器 时 ，ISEF 定制 处 理 单元 能 够 并 行 处 理 计算 
任务 ， 并 且 在 执行 全 流水 SAD 指令 时 ， 能 够 在 状态 寄存 器 中 保存 中 间 结 果 。 

每 个 宏 块 的 运动 估计 包含 了 大 约 41 次 SAD 和 41 次 MV 计算 。 单 个 宏 块 执行 
一 次 全 运动 搜索 需要 262K 次 操作 ，30f/s 的 视频 流 每 秒 需 要 一 共 10. 6G 次 操作 。 

利用 实现 时 的 启发 式 算法 ,应 用 开发 者 可 以 将 计算 量 最 小 化 ， 来 满足 目标 图 
像 质量 或 者 比特 率 要 求 。 

跨 不 同 搜索 区 域 、 不 同 帧 、 不 同 运动 矢量 的 用 户 运动 估计 算法 经 过 优化 后 可 
以 很 容易 用 ISEF 指令 来 实现 。 一 条 定制 指令 就 可 以 代替 多 次 计算 ， 同 时 也 可 以 
使 用 中 间 结 果 将 大 量 计算 流水 化 。 

例如 ， 一 条 定制 指令 可 以 执行 64 次 SAD 计算 。ISEF 保存 这 64 次 计算 的 结 
果 ， 并 提供 给 下 一 条 指令 重复 利用 ， 从 而 减少 了 数据 传输 的 次 数 。ISEF 指令 也 
可 以 流水 化 ， 从 而 提高 计算 能 力 。 

运动 估计 同时 也 涉及 多 种 像素 预测 ， 需 要 在 像素 周围 的 9 个 方向 执行 9 次 
SAD 计算 。 利 用 定制 指令 ， 一 次 16 x 16 的 1/4 像素 精度 的 SAD 计算 需要 133 
拍 , 一 次 4 x4 的 1/4 像素 精度 的 SAD 计算 需要 50 拍 。 

以 上 讨论 均 假 设 使 用 Stretch SS 处 理 器 。Stretch S6 处 理 器 带 有 一 个 可 编程 的 
加 速 器 ， 它 为 运动 估计 提供 了 一 个 专用 的 硬件 模块 ， 所 以 在 Stretch S6 处 理 器 中 
不 需要 实现 这 些 操作 。 
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7.7 未 来 的 应 用 研究 


本 节 介 绍 几 种 应 用 ， 从 而 阐明 需求 和 SoC 解决 方案 的 多 样 性 。 
7.7.1 MP3 音频 解码 


MP3 (MPEG-1/2 Audio layer-3) 是 最 流行 的 高 质量 压缩 音频 格式 。 本 节 将 
概括 地 了 解 它 的 基本 算法 '“! 并 介绍 它 的 两 种 实现 方法 : 一 种 是 用 ASIC， 另 一 种 
是 用 FPGA!) 。 

需求 MPEG- 标准 包含 了 以 联合 比特 率 1. 5Mb/s 的 方式 压缩 数字 视频 和 音 
频 。 这 个 标准 可 以 分 为 几 部 分 ， 其 中 第 三 部 分 主要 处 理 音 频 压 缩 。 根 据 不 同 级 别 
的 复杂 度 和 性 能 ， 音 频 压缩 标准 包含 三 层 ; 层面 三 标准 (通常 称 为 MP3) 具有 
最 好 的 性 能 ， 同 时 也 是 最 高 复杂 度 的 。 

MP3 音频 算法 涉及 感知 编码 ， 如 图 7. 22 所 示 。 这 个 算法 将 心理 声学 模型 和 
混合 子 带 /变换 编码 原理 的 结合 。 音 频 信和 号 被 分 为 32 个 子 带 信号 ， 对 每 个 子 带 信 
号 进行 改进 的 离散 余弦 变换 (Modified DCT，MDCT) 。 根 据 心 理 声 学 驱动 的 感知 
误差 机 制 ， 变 换 系数 使 用 标量 量化 和 变 长 哈 夫 曼 编码 方法 进行 编码 。 





图 7.22 感知 编码 和 解码 的 模块 图 '*1 


MP3 比特 流 是 一 系列 数据 “ 帧 ”的 串联 形式 ， 每 帧 对 应 了 音频 的 两 个 “ 颗 
粒 ” ， 每 个 颗粒 被 定义 为 精确 的 576 个 连续 的 音频 样本 。1 个 颗粒 有 时 候 会 被 划 
分 为 3 个 包含 192 个 样本 的 短 颗粒 。 

对 一 个 MP3 帧 进行 解码 主要 有 三 步 : 第 一 步 ， 同 步 到 帧 的 开始 ， 解 码头 信 
息 ; 第 二 步 ， 解 码 边 信息 ， 边 信息 包括 比例 因子 选择 信息 、 块 分 割 信息 和 表 选 择 
信息 ; 第 三 步 ， 解 码 两 个 颗粒 的 主要 数据 ， 包 括 变 换 因 子 的 哈 夫 曼 比 特 信息 、 比 
例 因子 。 帧 中 的 主要 数据 可 能 会 溢出 到 相 邻 的 帧 ， 所 以 需要 缓存 多 个 数据 帧 。 

当 帧 的 信息 被 解析 后 ， 下 一 步 就 是 从 解码 的 信息 重建 音频 的 每 个 颗粒 ， 主 要 
包括 以 下 几 步 : 

1. 从 主要 信息 和 边 信息 中 通过 反 量 化 得 到 变换 因子 ， 使 用 非 线性 变换 来 得 


236 计算 机 系统 设计 : 片上 系统 


到 解码 的 变换 因子 。 

2. 当 使 用 短 块 时 ， 反 量化 得 出 的 变换 因子 需要 重 拍 并 且 划 分 为 三 个 变换 因 
子 集合 ， 每 个 块 对 应 一 个 。 

3. 当 使 用 特定 的 立体 信号 ， 左 声 道 和 右 声 道 一 起 进行 编码 时 ， 变 换 因子 通 
过 声 道 信 息 重 新 形成 左 声 道 因子 和 右 声 道 因子 。 | 

4. 对 于 较 长 的 块 进行 “ 混 欠 消除 (Alias Reduction)”。 

5. 对 每 个 声 道 的 32 个 子 带 信息 使 用 带 因 子 的 逆向 的 改进 离散 余弦 变换 (In- 
verse MDCT, IMDCT), 

6. 对 连续 帧 的 IMDCT HA HARE ABIL. HABA, tz IMDCT 输出 
结果 的 前 半 部 分 与 前 一 个 颗粒 对 应 子 带 的 IMDCT 输出 的 后 半 部 分 进行 琶 加 。 

7. 最 后 一 步 ， 使 用 一 组 反 多 相 滤 波 器 将 32 个 子 带 信号 组 成 一 个 全 带 时 域 信和 号 。 

设计 ARM 处 理 器 和 DSP 处 理 器 的 结构 图 揭示 了 子 带 合成 滤波 (synthesis 
filter bank) 是 最 消耗 时 间 的 任务 ( 见 表 7.7)。 

表 7.7 ARM 和 DSP 处 理 器 上 的 MP3 分 析 结 果 


模 k 在 ARM 上 的 时 间 百 分 比 在 DSP 上 的 时 间 百 分 比 
7 


头 、 边 声调 ， 译 码 比例 因子 — 
哈 夫 曼 编码 ， 立 体 声 处 理 10 30 
混 释 消除 ，IMDCT 
滤波 器 组 








美国 AMI 半导体 公司 "已 经 在 五 个 金属 层 350nm CMOS 工艺 的 基础 上 开发 
出 了 一 个 ASIC 原型 。 该 芯片 包含 了 5 个 RAM， 有 主 存 、 哈 夫 曼 表 ROM ( 见 
表 7.8)， 核心 的 大 小 接近 13mm’, THEE 2V, 12MHz 时 功 耗 为 40mW。 在 满足 
实时 性 限制 的 条 件 下 ， 可 以 将 时 钟 频率 降低 到 4 ~6MHz。 
表 7.8 350nm ASIC 技术 上 的 MP3 解码 模块 


解码 模块 存储 /bit ROM 表 /bit 等 价 的 门 数 量 
同步 8192 3689 
共享 主 存 24064 1028 
哈 夫 曼 编码 45056 10992 
再 量化 21583 


3653 
13882 
61931 
31700 
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149407 
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解码 过 程 的 实时 性 要 求 是 由 MP3 帧 的 音频 信息 决定 的 。 解 码 过 程 中 不 同 子 
模块 在 24MHz 的 系统 时 钟 条 件 下 的 计算 时 间 不 同 (82 7.9)", A 
需要 的 总 时 间 为 2. 3ms， 在 24. 7ms 的 限制 内 显得 很 容易 。 这 就 表示 解码 的 时 钟 
速度 还 可 以 降低 ， 资 源 可 以 共享 以 达到 降低 成 本 的 目的 。 


表 7.9 Xilinx Virtex- I 1000FPGA 平台 上 MP3 解码 的 资源 利用 率 和 计算 时 间 吕 ” 





TIE oe 
“ek ae Se a Se ie 

哈 夫 曼 编码 11 120 
T 2 rm 


wena | «|» ë | w 
i 28 


对 应 Virtex- I 1000FPGA 平台 上 的 资源 利用 率 ( 见 表 7.9) ， 此 设计 使 用 了 
56% fk) FPGA } (slice), 15% 的 触发 器 ,45% 的 四 输入 查找 表 ，57% 的 块 
RAM。 而 且 ， 由 四 个 可 用 的 18 x 18 位 乘法 器 组 成 的 32 x 32 位 乘法 器 在 各 个 子 模 
块 中 共享 。 

利用 子 模块 之 间 的 资源 共享 可 以 减少 设计 的 面积 和 功 耗 。 然 而 ， 这 种 资源 共 
享 可 能 会 使 控制 和 实现 复杂 化 ， 如 引入 了 路 径 瓶 颈 ; 因此 ， 在 采用 这 种 方法 前 必 
须 对 它 的 好 处 与 坏处 进行 评估 。 


7.7.2 IEEE 802. 16 软件 定义 无 线 电 


WiMAX (IEEE 802. 16) 无 线 通 信 标 准 和 很 多 其 他 无 线 通 信 标 准 一 样 都 试图 
通过 提高 数据 传输 速率 来 满足 终端 应 用 的 需求 并 减少 部 署 成 本 。 从 很 多 的 噪声 中 
鉴定 数字 数据 的 技术 方法 给 大 多 数 处 理 器 的 计算 能 力 增加 了 很 大 的 压力 。 随 着 标 
准 的 不 断 改 进 ， 需 求 的 随时 变动 ， 可 编程 的 解决 方案 越 来 越 吸 引 人 。 

需求 ”图 7.23 显示 了 一 个 基本 的 IEEE 802. 16 发 射 器 的 实现 模块 图 "”! 。 在 
较 高 的 层面 上 ， 发 射 器 的 物理 (Physical PHY) 层 将 原始 数字 数据 流转 化 为 复杂 
数据 流 ， 复 杂 数 据 流 经 过 进一步 转化 成 为 模拟 无 线 电信 和 号。 接收 端的 PHY 层 从 
复杂 数据 流 中 将 数据 解码 为 原始 数据 形式 。 

PHY 层 中 的 模块 都 是 计算 量 需 求 较 大 的 ， 包括 快速 健 里 叶 变 换 (Fast Fourier 
Transforms, FFT) 和 反 向 FFT (IFFT)、 前 向 纠 错 (Forward Error Correcti FEC) 、 
正 交 调 幅 、 交 错 和 置 乱 。 其 中 前 向 纠 错 包 括 如 里 德 -所 罗 门 编 解码 的 分 组 编码 ， 以 
及 如 卷 积 编码 、 维 特 比 解码 和 正 交 振幅 调制 (Quadrature Amplitude Modulation， 
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图 7.23 IEEE 802. 16 发 射 器 模块 图 09] 


QAM) 的 位 编码 。 媒 体 访 问 控制 (Media Access Control, MAC) 层 给 PHY 层 和 网 络 
层 提供 接口 。MAC 层 的 处 理 是 控制 导向 的 ， 它 从 网 络 层 获 取 数 据 包 ， 依 据 服 务 质 量 
(Quality of Service, QoS) 来 对 需要 发 送 的 数据 进行 调度 ; 在 接收 端 ，MAC 层 将 数据 
重组 并 转交 给 网 络 层 。MAC 层 也 需要 在 基站 和 用 户 站 之 间 发 送 维 持 通 信 的 信息 和 错 
误 数 据 包 的 重复 请 求 信息 。 网 络 层 是 面向 应 用 的 接口 。TCP/IP 网 络 协议 栈 是 当今 最 
常见 的 网 络 协 议 栈 。 所 有 的 层面 相连 接 以 组 成 一 套 完整 的 网 络 解决 方案 。 

设计 802. 16WiMAX 标准 的 PHY 层 需要 处 理 256 位 的 FFT 和 正 交 频 分 复 用 
(Orthogonal Frequency-Division Multiplexing，OFDM) 。 在 Stretch S5 软件 可 配置 处 
理 器 (本 书 6.5.3 节 ) E, OFDM 的 工作 信道 宽度 可 以 被 配置 为 3. 5MHz、7MHz 
和 10MHz" 1 ， 支 持 二 进 制 移 相 键 控 法 (Binary Phase Shift Keying, BPSK), EX 
相 移 键 控 法 (Quadrature Phase Shift Keying, QPSK) 16QAM 或 者 64QAM 的 调制 
方法 。 在 带 有 噪声 的 环境 里 ， 需 要 FEC 模块 进行 前 向 纠 错 ， 标 准 里 有 很 多 方法 
供 选 择 。 注 意 ， 传 统 的 RISC 处 理 器 或 DSP 处 理 器 不 能 满足 WiMAX 同时 进行 基 
带 处 理 和 控制 任务 的 高 级 需求 。 单 个 的 软件 可 配置 处 理 器 就 可 以 满足 责任 重大 的 
WiMax 信号 处 理 和 任务 控制 的 需求 ， 如 在 单 芯片 上 的 基本 MAC 层 和 完整 TCP/IP 
协议 栈 就 能 使 三 种 信道 宽度 达到 最 高 比特 率 。 

Stretch 软件 可 配置 处 理 器 通过 定义 一 条 作为 扩展 指令 的 用 户 指令 来 实现 基 
2FFT， 这 条 指令 支持 16 次 16 x16 的 乘法 ，8 次 32 位 加 法 和 16 次 带 舍 人 和 缩放 
的 16 位 加 法 。 此 用 户 指令 利用 128 位 位 宽 寄存 器 将 三 组 四 个 复杂 的 值 传递 给 
ISEF 进行 并 行 操作 。 这 样 就 能 在 4ps 内 完成 256 点 FFT。 实 现 基 4FFT 能 得 到 
28% 的 性 能 提升 。 

FEC 模块 是 从 灵活 性 和 性 能 获得 好 处 的 另 一 个 模块 。 在 有 声 道 噪声 的 情况 
下 ， 前 向 纠 错 在 发 射 端 采取 数据 元 余 ， 在 接收 端 纠正 错误 ， 从 而 增加 数据 吞吐 
量 。 在 卷 积 编码 中 ， 每 一 个 编码 位 是 由 当前 输入 的 1 比特 与 之 前 输入 的 多 个 比特 
进行 卷 积 运算 得 出 的 。 计 算 中 使 用 的 比特 数 叫 约束 长 度 ， 比 率 为 每 输出 1 个 比特 
所 需要 输入 的 比特 数 。WiMax 标准 使 用 的 卷 积 编码 的 约束 长 度 为 7、 比 率 为 1/2， 
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同时 ， 它 也 支持 其 他 比率 。 

RISC 处 理 器 处 理 卷 积 编码 中 的 比特 级 的 操作 时 通常 不 够 高 效 。 在 Stretch 软 
件 可 配置 处 理 器 中 ， 比 特级 的 操作 可 以 利用 用 户 处 理 单元 ISEF 来 进行 优化 。 可 
以 实现 64 位 输入 产生 128 位 输出 的 用 户 指令 ， 这 条 指令 使 用 内 部 状态 来 保存 6 
位 的 状态 位 ， 并 将 64 位 输入 与 状态 位 并 行 地 进行 卷 积 运算 ,产生 128 位 的 输出 。 

卷 积 编码 产生 的 比特 流 可 以 使 用 格 构 (trellis) 图 来 找到 最 可 能 的 编码 序列 。 
维特 比 解码 器 通过 限制 检查 的 序列 数目 来 达到 高 效 的 解码 比特 流 。 它 记录 每 个 格 
构 阶 段 每 个 状态 的 最 可 能 路 径 。 维 特 比 解码 方法 是 计算 密集 型 操作 ， 它 需要 对 每 
个 阶段 每 个 状态 进行 相 加 -比较 -选择 (Add-Compare-Selected, ACS) 运算 ,同时 
还 要 记录 所 选 路 径 的 历史 。 它 主要 包括 三 步 : (1) 分 支 度量 计算 ，(2) 每 个 阶 
段 每 个 状态 的 ACS 计算 ，(3) 回溯 。 

在 格 构图 中 ， 每 个 分 支 都 有 一 个 度量 方法 ， 这 个 方法 称 为 分 支 度量 ， 它 衡量 
了 接收 到 的 信号 与 输出 分 支 标签 之 间 的 距离 。 分 支 度量 是 由 接收 到 的 样本 与 分 支 
标签 之 间 的 欧 氏 距离 计算 而 来 的 。 

用 户 创建 的 指令 EI ACS64 就 是 用 来 处 理 这 些 的 。 它 进行 分 支 度量 计算 ,将 
分 支 度量 与 上 一 个 阶段 的 路 径 度 量 相 加 ， 然 后 比较 两 条 形成 路 径 的 路 径 度 量 ， 将 最 
大 值 更 新 为 新 的 路 径 度 量 ， 然 后 选择 路 径 。EI_ ACS64 指令 并 行 地 处 理 一 个 格 构 状 
态 的 所 有 状态 的 ACS 操作 。 换 句 话 说， 这 条 用 户 指令 并 行 地 处 理 32 次 蝶 式 运算 。 
64 次 路 径 度量 的 结果 在 ISEF 中 以 内 部 状态 存储 。 当 一 个 状态 转换 到 下 一 个 状态 
Hf, EI ACS64 针对 每 个 状态 对 输出 宽度 寄存 器 更 新 1 位 ， 表 示 此 路 径 被 选中 。 每 
个 状态 遍历 四 个 格 构 阶 段 ， 共 更 新 4 位 ， 对 于 所 有 的 状态 ,一 共 更 新 4 位 x64 = 
256 位 ， 可 以 使 用 两 条 存储 指令 (WRAS128IU) 将 这 些 位 存储 到 内 存 中 。 

真正 将 数据 解码 为 原始 数据 是 对 格 构 沿 着 最 可 能 的 路 径 进行 回溯 得 到 的 。 回 
淹 的 长 度 一 般 是 卷 积 编码 的 余数 长 度 的 4 ~5 倍 。 在 某 些 情 况 下 ， 回 溯 开始 前 数 
据 帧 就 已 经 接收 完成 。 那 么 从 反方 向 遍历 格 构 来 对 输入 比特 流 进行 解码 。 假 设 在 
最 后 一 个 格 构 阶段 的 状态 停 在 了 一 个 已 知 的 状态 ， 典 型 的 状态 “0”。 可 以 通过 
发 送 额 外 的 K-1 位 0 来 将 所 有 的 状态 转化 到 “0” 状态 。 每 个 状态 存储 的 1 位 
表明 从 阶段 跳 转 到 阶段 -1 时 是 从 哪个 分 支 转换 的 。 创 建 另 一 个 用 户 指令 VIT- 
ERBI_TB ， 用 它 来 对 4 个 格 构 阶 段 进行 回 湖 。 它 使 用 内 部 状态 来 保存 前 一 状态 ， 
使 用 它 来 进行 下 一 个 回溯 循环 ， 并 输出 4 位 的 解码 比特 流 。 在 8 位 解码 比特 流 被 
存储 到 内 存 之 前 ， 指 令 VITERBI_TB 会 被 执行 两 次 。 


7.8 总 结 


希望 本 章 的 内 容 能 很 好 地 阔 述 SoC 应 用 的 多 样 性 、 相 关 设 计 技 术 和 SoC 架构 


240 计算 机 系统 设计 : 片上 系统 


的 范畴 。SoC 架构 的 范畴 可 以 从 骨 入 式 ARM 处 理 器 到 可 重 构 芯 片 ， 可 重 构 芯片 
有 从 Xilinx 到 Stretch 的 各 类 处 理 器 ， 其 中 有 很 多 在 前 面 章节 中 已 经 介绍 过 了 。 
有 趣 的 是 ， 多 媒体 、 密 码 学 、 通 信和 很 多 其 他 的 关键 应 用 对 性 能 需求 的 快速 增长 
导致 了 一 批 新 兴 的 企业 ， 如 美国 Achronix、 美 国 Element CXI、 和 荷兰 Silicon Hive, 
美国 Stretch 和 美国 Tabula 公司 ， 时 间 将 会 说 明 它 们 中 间 谁 是 赢家 。 

但 是 ， 这 里 没有 尝试 提供 详细 完整 的 使 用 最 新 工具 的 特定 应 用 的 设计 开发 或 
设计 风格 ， 这 些 内 容 可 以 在 已 有 的 书 中 找到 。 例 如 ，Fisher HA), LAB Rowen 


和 Leibson"*”1 相 对 比较 专注 于 VLIW 结构 和 可 配置 处 理 器 方面 。 从 工业 角度 的 SoC . 


设计 案例 "和 设计 方法 '*1 也 可 以 在 现 有 的 资料 中 找到 。 对 处 理 器 设计 中 的 分 析 技 
术 应 用 的 详细 案例 感 兴趣 的 读者 可 以 参考 了 lynnt%] 、Hennessy 和 Patterson 的 书 。 


7.9 习题 


1. 为 了 支持 IEEE 802. 11bWi-Fi 的 AES，32 位 ARM7 指令 集 的 处 理 器 的 频 
率 最 低 需 要 多 少 ? 如 果 是 64 位 处 理 器 呢 ? 

2. 对 于 30f/s 的 1920 x 1080 像素 的 高 清 视频 ， 试 估算 在 计算 DCT 时 每 秒 的 
操作 次 数 。 

3. 解释 为 什么 图 7. 14 所 示 的 相机 JPEG 系统 能 被 改进 为 支持 10M 像素 图 像 
的 相机 JPEG 系统 。 

4. 假设 FPGA 以 90nm 工艺 生产 的 ， 试 估计 表 7.6 所 示 的 FPGA 和 ASIC 设 
计 的 大 小 (单位 为 rbe) 。 

5. 假设 FPGA 以 90nm 工艺 生产 ， 比 较 表 7.6 所 示 的 FPGA 和 ASIC 设计 的 
优点 和 缺点 。 若 FPGA 和 ASIC 的 工艺 变 为 45nm， 请 再 次 比较 表 7.6 所 示 的 FP- 
GA 和 ASIC 设计 的 优 缺 点 。 

6. 假设 一 个 三 维 图 像 应 用 需要 处 理 大 个 未 裁剪 的 三 角形 ， 每 个 三 角形 的 像 
素 个 数 平均 为 p， 被 其 他 三 角形 覆盖 的 系数 为 w。 采 用 环境 漫 射 光 照明 模型 和 高 
Re, HRA mxn, WRAS (单位 为 f/s)。 

(a) 计算 几何 操作 中 的 浮 点 运算 次 数 。 

(b) 计算 像素 值 的 整数 运算 次 数 。 

(c) 计算 光栅 化 的 访 存 次 数 。 

7. 表 7.10 给 出 了 ARM1136J-S PXP 系统 的 性 能 参数 。 在 16K 指令 缓存 和 
16K 数据 缓存 的 情况 下 ， 数 据 通路 的 运行 频率 最 高 达 350MHz。32K +32K 和 64K 
+64K 实现 方式 的 运行 速度 受到 了 它们 的 缓存 实现 的 限制 。 

(a) 说 明 增 加 一 级 缓存 大 小 对 性 能 的 影响 。 

(b) 说 明 导 致 了 最 大 的 缓存 面积 却 没 有 最 快 的 速度 的 原因 。 
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(c) 比较 最 快 的 设计 和 第 2 快 的 设计 ， 说 明 哪 一 种 具有 更 好 的 性 价 比 ， 并 
说 明 为 什么 。 
表 7.10 ARM1136J-S PXP 系统 的 性 能 参数 (MPEG4 解码 的 性 能 ) 
16K + 32K + 64K + 16K + 16K + 16K + 32K + 
ES 16K 16K 16K 32K 


ae ae | sar as | 









一 级 缓存 大 小 
二 级 缓存 大 小 | 一 | 






注 : 面积 值 包括 相应 的 二 级 缓存 的 面积 。 


8. 如 图 7. 24 Bray, PAS AR: A, x WW AL: H, x W, 进行 卷 积 算法 ， 图 
像 的 可 选 的 掩 模 分 别 为 相对 同样 大 小 的 M 和 MM,, H, >H, A W,>W,, fx fa 
万 和 .万 为 纯 函 数 ， 即 函数 的 结果 只 与 它们 的 参数 相关 ， 与 内 部 状态 无 关 。 

(a) 在 如 下 情况 下 计算 M, Mi, fy, fos faM fa Hti: (1) SAD 相关 ; 
(2) 归 一 化 相关 ; (3) 高 斯 模糊 。 

(b) 输出 的 结果 图 像 L 的 分 辨 率 是 多 少 ? 

(c) 产生 结果 图 像 I 需要 多 少 拍 ? 


for y=0 to H, - H, do 
for x =0 to W, - W, do 
Ic, , = fy ( 


H-1 Wii 


p> È faM, N ij? M2 siso Ipsis) ’ 


i=0 j=0 


> Ffa (Mj, 1 l,j), 


t= ae 


> aM, P 7) ) 
i=0 j=0 
end for 


end for 


图 7.24 输出 图 像 为 1 的 卷 积 算法 
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8.1 引言 


伴随 着 晶体 管 密度 的 快速 增长 ， 需 要 对 未 来 的 挑战 做 个 预测 。 一 种 理想 预测 
是 全 自治 片上 系统 (Autonomous SoC, ASoC): 它 融 合 了 射频 识别 ( radio-fre- 
quency identification, RFID) 技术 与 SoC 技术 外 加 能 量 转换 器 、 传 感 控制 器 和 电 
池 ， 所 有 这 些 都 集成 在 一 个 芯片 上 。 这 最 主要 的 挑战 在 于 设计 要 满足 极 低 的 功率 
(1pW 或 更 低 ) 和 能 耗 要求 。 这 就 需要 重新 设计 时 钟 、 片 上 存储 的 组 织 和 处 理 器 
核 的 布置 。 通 过 使 用 菏 膜 电池 、 有 效 的 无 线 电 通 信 、 数 字 信 和 号 传感器 和 微 电 机 系 
统 (Microelectromechanical System, MEMS) 可 以 完成 ASoC 计划 。 除 了 满足 这 样 
的 要 求 ， 还 需要 平衡 系统 的 功 耗 、RF 和 速度 。 

总 而 言 之 ， 设 计时 间 和 成 本 是 SoC 系统 目前 主要 的 瓶颈 ， 并 且 在 未 来 可 能 更 
严重 。 一 种 打破 这 种 限制 的 有 效 方法 是 开发 一 种 设计 机 制 ， 使 得 组 件 可 以 自我 优 
化 和 自我 验证 来 改善 有 效 性 、 重 用 性 和 正确 性 一 一 由 ITRS 提出 的 三 大 设计 挑战 。 
在 设计 前 后 的 自我 优化 和 自我 验证 是 未 来 SoC 设计 的 核心 。 

本 章 共 有 两 部 分 内 容 : 第 一 部 分 描述 未 来 的 系统 一 一 ASoC; 第 二 部 分 描述 
未 来 的 设计 过 程 自我 优化 和 自我 验证 。 本 章 所 描述 的 很 多 挑战 的 ， 如 果 将 来 
遇 到 的 话 也 是 机 会 。 我 们 在 文章 中 重点 标识 出 具体 的 挑战 。 


8.2 未 来 的 系统 : 全 自治 片上 系统 








8.2.1 概述 


ont 技术 是 微 处 理 器 市 场 的 一 个 延伸 ， 每 年 增长 20% ， 未 来 的 增长 率 将 会 更 
高 ma 

典型 的 SoC 包括 多 个 异 构 处 理 器 和 控制 器 ， 以 及 多 种 存储 器 (ROM, BFF 
和 eDRAM) 。 处 理 器 核 面向 一 种 或 多 种 特定 的 多 媒体 处 理 。 典 型 的 应 用 包括 手 
机 、 数 字 照 相机 、MP3 和 多 种 游戏 设备 。 

另外 一 个 快速 增长 的 市 场 是 自治 芯片 (Autonomous Chip，AC) 。 它 们 具有 很 
小 的 处 理 功 耗 和 存储 能 力 ， 但 是 需要 RF 通信 和 一 些 自 带 的 电源 或 能 源 管理 。 更 
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复杂 的 AC 可 能 还 包括 一 些 传感器 。 简 单 AC 的 有 RFID' i、 智能 卡 和 片上 信 
用 卡 。 

最 简单 的 AC 是 被 动 驱 动 的 RFID。 它 只 反映 源 RF 的 携带 者 并 且 通 过 携带 者 
的 电源 来 驱动 显示 携带 者 的 ID。 比 较 复杂 的 例子 如 病人 监测 报警 器 中 和 20 世纪 
90 年 代 的 灰尘 智能 探测 系统 '“"] 。 它 们 都 是 用 电池 驱动 的 RF 来 广播 ID,，ID 通 
过 检 波 传感器 输入 。 

很 多 智能 卡 和 包括 美国 的 VISA、 我 国 香港 的 Octopus Card 在 内 的 银行 卡 ， 
除了 需要 通信 的 卡 以 外 ， 都 使 用 REFID 。 最 简单 的 卡 没 有 卡 上 的 可 写 存储 ， 记 录 

只 能 被 集中 更 新 ， 常 基于 Jave Se 基于 一 些 特殊 考虑 ， 有 一 系列 遥 

控 识别 卡 ( 即 RFID) 的 标准 : 

e ISO 10536 紧 耦 合 卡 [close coupling cards (0 ~1cm)] 

e ISO 14443 HBA F [proximity coupling cards (0 ~ 10cm) ] 

e ISO 15693 MISA -F [vicinity coupling (0 ~1m) ] 

未 来 全 自动 的 SoC 或 者 ASoC 是 SoC 和 AC 技术 的 融合 〈 见 表 8.1). Bek 
简单 ， 但 是 工程 技术 却 很 困难 ， 因 为 需要 重新 考虑 处 理 器 的 整体 架构 和 实现 来 优 





表 8.1 ASoC 实例 


EE 
æ% | 


短期 电池 


ies 


无 源 的 : 厘米 级 





研究 ASoC 的 动力 来 源 于 智能 微 尘 计划 (Smart Dust Project) Is] ， 在 20 世纪 
90 年 代 启动 ， 对 传感器 和 RF 领域 开展 了 具有 重要 意义 的 工作 。 此 项 目 把 具有 
RF 的 传感器 植 人 约 为 Imm? 的 微 尘 中 。 它 依靠 AA 级 电池 作 电 源 。 此 项 目的 目标 
在 于 检测 一 种 “事件 ”， 如 移动 目标 或 者 是 一 个 热 信 和 号。 

ASoC 在 计算 能 力 和 存储 容量 方面 做 了 新 的 扩展 ， 同 时 在 片上 整合 了 一 个 
电源 。 

根据 智能 级 别 ，AC 的 一 个 简单 分 类 如 下 : 

1. 简单 的 在 片上 用 RF 来 标识 自己 (如 RFID)。 

2. 对 传感器 检 波 “事件 ”利用 RF 进行 标识 [如 智能 微 尘 (Smart Dust) 和 
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智能 卡 (Smart Cards) ] 。 

3. 利用 RF 对 结果 的 反馈 来 进行 “事件 ”的 检测 和 处 理 (分 类 、 识 别 、 分 析 ) 。 

ASoC 的 数据 处 理 能 力 在 降低 传感器 需要 传输 的 数据 量 方面 很 有 价值 。 它 使 
得 交互 式 计算 成 为 可 能 〈 如 行星 探测 ) ; 可 以 用 来 在 偏远 地 区 对 稀有 乌 类 和 其 他 
物种 进行 识别 ; 或 者 是 作为 “药丸 ”用 来 对 肠胃 疾病 进行 诊断 。 当 然 ，ASoC R 
寸 并 不 是 所 有 的 应 用 场景 都 很 重要 。 稀 有 物种 的 “监听 ”设备 可 能 不 关注 尺 十 
大 小 ， 而 且 要 求 有 足够 的 电源 支持 。 那 么 把 ASoC 看 成 是 一 个 工具 箱 ， 为 新 系统 
的 设计 提供 可 配置 的 能 力 来 适应 千变万化 的 环境 和 计算 需求 。 

在 接 下 来 将 介绍 硅 技术 的 演变 、 电 池 和 人 能源 方面 的 限制 、 实 现 架构 、 通 信 、 
传感器 和 应 用 。 


8.2.2 技术 


就 像 前 面 介绍 的 ， 接 下 来 的 几 年 里 晶体 管 和 存储 密度 将 会 增长 10 RO, 
每 平方 厘米 的 晶体 管 数量 将 达到 数 十 亿 。 由 于 合理 功 耗 的 处 理 器 可 以 用 100 000 
级 的 晶体 管 数量 来 实现 ， 对 于 ASoC 应 用 来 说 有 很 多 可 能 性 。 
但 是 这 样 的 密度 是 有 代价 的 。 太 小 的 设备 在 传统 的 工作 站 的 实现 中 会 引起 严 
重 的 性 能 问题 。 通 常情 况 下 ， 挫 杂 原 子 的 差异 (为 了 生产 设备 所 需要 掺 杂 的 原 
FRE) 会 导致 设备 之 间 的 延迟 。 带 有 强 电场 的 小 结构 会 导致 可 靠 性 问题 : F 
体 和 绝缘 体 之 间 的 电 迁 移 。 在 采用 低 功 耗 和 低速 ASoC 的 情况 下 ， 上 述 问 题 并 不 
显著 。 对 于 可 使 用 的 ASoC 来 说 ， 最 主要 的 问题 是 电池 的 容量 或 所 能 存储 的 能 
量 。 为 了 处 理 这 个 问题 ， 需 要 回顾 一 下 本 书 第 2 章 所 讨论 的 两 个 关系 ， 相 关 的 硅 
面积 4、 算 法 执行 时 间 了 和 能 量 消 耗 已 (公式 中 上 是 常量 ) A 
472 =k (8.1) 
EK” OORT REA TER (晶体 管 数量 ) 和 完成 具体 操作 的 执行 时 间 之 间 的 关 
Ro MARK 〈 晶 体 管 数量 越 多 ) 速度 越 快 (执行 时 间 越 短 )。 本 书 第 2 章 介 绍 
了 执行 时 间 和 功 耗 之 间 的 关系 ”1; 
TP =k (8.2) 
由 此 可 见 ， 随 着 电压 的 降低 ， 功 耗 成 二 次 方 下 降 但 是 速度 成 直线 下 降 。 但 是 对 于 
晶体 管 来 说 ， 延 迟 和 电压 之 间 是 非 线性 的 关系 。 E E 是 三 次 
方 曲线 : 
P,/P, =(F,/F,)? (8.3) 
所 以 ， 如 果 把 主 频 提升 一 倍 ， 那 么 功 耗 将 提高 到 8 倍 。 当 评估 规划 微 瓦 级 芯片 的 
频率 时 ， 式 (8.2) 的 适应 性 就 没 那 么 精确 了 。 当 今 最 好 的 功 耗 设计 是 用 1W 的 
开销 达到 1GHz 的 效果 (相当 于 达到 1000MIPS) ; 这 也 许 是 乐观 的 情况 。 以 105 
量 级 来 降低 功 耗 就 得 以 100MHz 或 10MHz 的 量 级 来 降低 频率 。 在 过 去 的 2 年 里 ， 


第 8 章 展望 : 未 来 的 挑战 245 


传感器 处 理 器 的 设计 几乎 已 经 达到 了 0. SMIPS/pW?") 但 是 这 距离 10MH2/pW 
的 目标 还 是 非常 的 大 ， 硅 缩放 技术 也 许 能 弥补 这 个 差距 。 
挑战 

六 已 = 这 一 定理 在 微 瓦 级 还 适用 吗 ? 

这 一 定理 在 普通 计算 条 件 下 是 正确 的 ， 但 是 怎么 把 它 扩展 到 微 瓦 级 呢 ? 需要 
什么 样 的 电路 和 策略 呢 ? 


8.2.3 D 


设计 稳定 高 效 ASoC 的 关键 在 于 解决 功 耗 和 使 用 寿命 的 问题 ， 这 两 个 问题 都 
和 电源 (电池) 有 关 。 电 池 可 以 是 一 次 性 的 也 可 以 是 重复 充电 的 。 对 于 ASO, 
蓄电池 要 从 周围 环境 中 吸收 能 量 。 电 池 的 能 力 以 鞭 电 小 时 来 衡量 ， 转 换 成 1. 5V 
下 的 J(W/S)。 电 池 的 蓄 电 能力 和 可 充电 性 都 取决 于 体积 ， 包 括 表 面积 和 ASoC 
每 平方 厘米 的 重量 。 

表 8.2 给 出 了 ASoC 用 电池 对 比 ， 是 三 种 常用 的 电池 类 型 : 印 制 电池 (prin- 
ted battery) "1 和 薄膜 电池 (thin fm)'”1 可 以 直接 整合 到 ASoC 中 (RER 
面 ); 钮 扣 电池 一 般 是 外 设 ， 直 径 在 lem 以 内 。 印 制 电池 是 通过 在 平滑 的 表面 上 
喷 印 一 些 特殊 的 材料 形成 的 。 薄 膜 电池 是 和 ASoC 一 起 集成 到 硅 片 上 的 。 


表 8.2 ASoC 用 电池 对 比 


表 8.3 ”能 量 转换 源 C ao 















晶体 结构 的 形变 产生 电压 
10V/m 的 电场 产生 16 W/em? 的 天 线 本 书 参考 文献 266] 





挑战 

以 lem? x 100m 的 体积 能 提供 100J 以 上 能 量 的 电池 技术 才 可 以 集成 到 硅 
片上 。 

很 多 应 用 都 急需 微 电 池 技术 。 
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能 量 的 来 源 有 很 多 途径 (部 分 见 表 8.3)。 一 般 情况 下 能 量 源 的 体积 越 大 电 
量 就 越 大 ， 在 很 大 程度 上 还 取决 于 系统 的 环境 是 否 适宜 吸收 能 量 。 

假设 ASoC 消耗 1uW 的 能 量 (工作 情况 下 )， 所 需要 的 充电 周期 有 所 变化 
( 见 图 8.1); 占 空 比 在 影响 ASoC 的 服务 能 力 方面 起 到 了 很 重要 的 作用 ， 前 提 是 
被 动 传感器 能 侦 测 到 信和 号 然后 再 启动 系统 进行 分 析 。 

挑战 ”利用 现 有 的 可 用 技术 ， 从 更 多 的 能 量 源 转换 电能 。 

到 目前 为 止 ， 对 于 能 量 转换 ( 见 图 8.2) ， 大 家 的 关注 点 还 局 限于 光 和 RF 
技术 (如 RFID)。 那 么 就 需要 对 取舍 进行 全 面 的 研究 ， 特 别 是 在 微 瓦 级 转换 时 。 
过 去 ， 认 为 这 种 低能 耗 的 转换 没有 使 用 价值 ， 但 是 对 于 ASoC 来 说 这 是 很 有 意 
义 的 。 


时 间 / 月 
3 


一 9 一 100% 占 空 比 
电量 /J 


图 8.1 对 于 1pW 的 不 停 消耗 功率 最 大 的 充电 时 间 间 隔 


功率 P 






PXT? = 常数 


时 间 了 


图 8.2 面积 、 时 间 和 功 耗 之 间 的 关系 


面积 4 


8.2.4 全 自治 片上 系统 的 外 形 
ASoC 逻辑 结构 如 图 8.3 所 示 ， 包 括 电源 、 传 感 器 (一 个 或 多 个 ) 、 主 计算 
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机 、 存 储 单元 及 通信 模块 。ASoC 与 之 前 RFID 传感器 的 不 同 之 处 就 在 于 有 计算 
能 力 和 存储 单元 。 正 由 于 这 些 功能 使 得 ASoC 具有 分 析 和 识别 能 力 ， 在 与 外 界 交 


互 之 前 可 以 做 出 综合 的 反应 。 





图 8.3 ASoC 逻辑 结构 


在 物理 上 ，ASoC 只 是 一 个 硅 片 ， 表 面积 在 lcm 左右 。 表 面积 的 大 小 受 限于 
成 本 ， 而 成 本 又 由 缺陷 密度 决定 。 现 有 的 技术 对 于 lcm 或 稍 小 一 些 面 积 的 硅 片 ， 
可 以 保证 非常 好 的 优良 率 。 对 于 lem 以 下 硅 片 ， 成 本 主要 集中 于 测试 和 处 理 ， 


所 以 对 于 大 多 数 应 用 来 说 首选 还 是 
lcm' 。 因 受 限 于 晶片 的 制造 条 件 ， 
硅 片 的 厚度 一 般 是 600km。 在 背面 
增加 一 个 薄膜 电池 会 增加 50km 的 
厚度 。 最 终 的 ASoC 一 般 在 65mm’， 
重 0.2g。 由 图 8.4 可 知 ， 它 大 概 有 
10 亿 的 晶体 管 。 这 些 晶 体 管 构成 了 
传感器 、 计 算 单 元 、 存 储 单元 和 
RF， 电 池 在 背面 。 


8.2.5 计算 机 模型 和 存储 


存储 器 密度 (MB/cm?) 


120 


100 一 一 存储 器 密度 
80 —o— 晶体 密度 


特征 尺寸 
图 8.4 ITRS” 晶体 管 密度 预测 


晶体 管 密度 ( 百 万 /cm2) 


对 于 功率 只 有 1pW 的 计算 机 ， 其 微 体 系 结构 与 传统 的 处 理 器 有 以 下 很 大 的 


区 别 : 


1. 异步 时 钟 。 最 少 化 数据 状态 的 转换 来 降低 动态 功 耗 。 在 整个 时 钟 系统 中 ， 


可 能 只 有 1/10 的 异步 转换 需求 。 


2. VLIW 的 使 用 。 由 于 晶体 管 数量 不 限 而 功 耗 受 限 ， 所 以 要 尽量 利用 所 有 可 


用 的 并 行 度 来 提高 性 能 。 
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3. Beckett 和 Goldstein’?! BATRA DA ORD 4 AT AN I BRK oh AN 
管理 的 漏 损 率 ) ， 有 可 能 把 整个 硅 片 的 功 耗 减少 到 一 个 区 域 的 功 耗 。 这 会 牺牲 最 
大 的 工作 时 钟 频 率 ， 但 是 额外 的 面积 可 以 通过 并 行 化 体系 结构 来 抵消 掉 。 

4. 最 小 的 简单 缓存 系统 。 如 果 处 理 器 每 0. lps 处 理 一 次 ， 而 存储 单元 的 访 
问 延迟 在 1 ~10hs 之 间 ， 那 么 存储 单元 和 处 理 器 具有 比较 接近 的 时 间 周 期 。 小 型 
的 指令 缓存 和 数据 管理 缓冲 器 更 适合 于 特定 应 用 。 

存储 单元 是 系统 不 可 缺少 的 组 成 部 分 ， 因 为 即使 没 电 了 还 是 会 记录 数据 。 当 
前 的 存储 密度 可 以 到 达 非 常 卓 越 的 访问 速度 一 一 10ps， 而 且 ASoC 的 存储 能 力 在 
16 ~64MB 之 间 。 

基于 当前 的 配置 技术 ， 闪 存 和 CMOS 技术 非常 不 兼容 ， 并 且 受 限于 片 外 技术 
的 实现 。 但 是 ， 现 在 有 很 多 闪存 的 变 体 ， 专 门 为 了 兼容 通用 的 SoC HA. SO- 
NOS?) 是 可 永久 存储 的 例子 ，Z-RAM[”] 是 代替 DRAM 的 例子 。 这 两 者 都 不 受 传 
统 闪 存 重 写 时 钟 的 限制 (AK 100 000 次 写 ) 。 

即使 内 存 不 存储 时 没有 功 耗 也 不 会 被 使 用 ， 因 为 当 它 被 访问 时 能 量 消耗 随 着 
活跃 数据 存储 空间 的 大 小 按 正比 上 升 。 更 确切 地 说 ， 是 与 每 一 位 和 字 单 元 相连 接 
的 存储 单元 数量 (假设 是 二 维 的 结构 ) E. Æ ASC 里 面 ， 这 意味 着 存储 单 
元 可 以 分 成 更 小 的 部 分 ， 使 得 功 耗 和 访问 时 间 都 达到 最 有 效 。 


8.2.6 RF 和 激光 通信 


ASoC 的 最 大 的 挑战 之 一 就 是 通信 。 比 较 常 用 的 两 种 途径 有 激光 和 RF 通信 。 
挑战 

极 低 功 耗 的 处 理 器 在 微 瓦 的 功率 大 概 能 达到 传统 处 理 1/100 的 性 能 。 

这 就 需要 从 晶体 管 级 (最 小 化 静态 功 耗 ) 到 新 的 电路 技术 ( 阔 值 以 下 或 者 
隔 热 的 电路 ) 对 处 理 器 设计 重新 进行 设计 、 新 的 时 钟 和 全 新 的 体系 架构 。 
8.2.6.1 激光 


激光 和 硅 的 融合 是 一 门 新 兴 的 。 "0 

导管 把 激光 器 直接 连接 到 硅 片 上 。 I 

利用 激光 器 实现 光 通 信 具 有 可 能 性 

的 同时 也 有 很 多 困难 。 ai 
光 传 感 器 非常 灵敏 26 ;luW 

的 功率 能 达到 100MHz ( 见 图 8.5) 。 | 

困难 在 于 信息 接收 受到 周围 环境 光 0 ESI 


线 (噪声 ) 的 影响 。 一 般 情 况 下 信 
号 的 强度 要 高 于 周围 干扰 的 10 倍 以 图 8.5 图 片 信号 敏感 度 与 脉冲 宽度 的 关系 


功率 /pW 
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上 。 另 外 一 个 难点 是 光束 的 发 散 〈 特 别 是 在 激光 二 极 管 中 ) 。 这 需要 利用 光学 原理 
来 校准 发 散 的 光束 "” 。 

光束 不 能 太 窗 〈 聚 焦 ) ， 因 为 通信 接收 端 必须 在 时 间 和 空间 上 完全 同步 。 对 
于 相干 的 窗 光 束 ， 光 必须 散射 以 容忍 源 和 接收 端 之 间 传 播 的 振 葛 光 振 功 会 在 4 距 
离 内 导致 垂直 或 水 平方 向 的 a 角 移 位 。 这 就 导致 接收 端 5 的 不 确定 性 。 所 以 ， 接 
收 端 必须 具有 一 个 RxR 的 信号 接收 区 域 ， 如 图 8. 6 所 示 。 


— g) 


接收 端 
图 8.6 光 通 信 的 信号 接收 区 域 与 距离 


因为 在 x 的 负 轴 和 y 的 负 轴 的 情况 下 ，R >6 =ad， 信 号 的 丢失 率 为 k (1/d)。 

考虑 到 以 上 限制 ， 利 用 激光 自由 空间 (而 不 是 光纤 ) 进行 通信 ， 对 于 ASoC 
来 说 ， 很 可 能 会 成 为 第 二 值得 研究 的 领域 。 
8.2.6.2 RF 

智能 微 尘 计划 的 研究 工作 几乎 是 这 个 方面 最 有 意义 和 最 有 用 的 “1 。 它 们 
把 低 功 耗 的 RF 集成 到 一 个 SoC 中 。 它 们 的 研究 成 果 可 以 总 结 如 下 : 

1. 此 可 行 性 研究 实现 了 一 个 无 线 电 收发 机 ， 可 以 在 20m 的 距离 25nJ/bit 的 
功 耗 下 ， 达 到 100Kb/s 的 速率 。 相 当 于 10" bit’ (Jm). 1J 的 电池 能 量 可 以 使 得 
1Gbit 的 数据 传输 1m 。 

2. 以 每 米 为 基础 来 表示 所 传输 的 数据 量 (如 上 所 述 ) ， 似 乎 表明 了 在 信号 损 
失 和 传输 数据 之 间 有 一 个 线性 关系 。 其 实 这 是 不 对 的 。 对 于 光 来 说 ，RF 信号 的 强 
度 至 少 是 传输 距离 d 的 二 次 方 的 函数 ; 而 且 它 还 是 频率 f 的 函数 。RF 信号 项 多 与 
[1/(fd*) ] 成 比例 。 在 很 多 情况 下 ， 信 和 号 会 被 反射 并 以 多 种 不 协调 的 模式 到 达 接 收 
端 。 这 种 多 路 径 的 信号 意味 着 额外 的 信号 损失 。 通 常 被 表示 为 k[1/(fz?)] (do/ 
d) "。 其 中 ，d 是 标准 距离 (通常 为 lm) ,n 通常 为 3 或 4。 

3. 以 低 于 lmW 的 功率 进行 通信 不 但 可 行 而 且 可 能 会 商业 化 。 对 于 典型 的 低 
于 1% 的 占 空 比 ， 平均 消耗 1 ~10pW 的 能 量 。 

4. 另外 ， 还 有 大 数据 包 开 销 (包括 启动 和 同步 、 启 动 信号 、 地 址 、 包 长 度 、 
加 密 和 纠 错 ) ， 短 消息 只 有 3% 的 有 效 载荷 ， 所 以 生成 较 少 数量 的 较 长 数据 包 会 
更 好 。 

5. 根据 2 和 3 的 分 析 ， 系 统 设计 者 会 尽 可 能 地 减少 信号 传输 的 次 数 ， 并 尽 
可 能 地 增加 信和 号 数据 包 的 有 效 载荷 。 
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8.2.6.3 ”激光 和 RF 的 通信 能 力 
表 8.4 给 出 了 通信 技术 对 比 ， 总 结 并 对 比 了 激光 和 RF 每 焦耳 的 通信 能 力 
(数据 量 或 者 数据 位 数 ) 。 虽 然 激光 通信 每 焦耳 可 传递 更 多 的 数据 ， 但 是 它 本 身 
的 局 限 性 限制 了 它 的 使 用 。 
表 8.4 通信 技术 对 比 


BERS; 外界 光 干扰 10'° ~102 
挑战 


可 适 配 的 最 优化 通信 和 包括 RF 的 超 定 向 天 线 和 激光 的 可 自动 适 配 的 特殊 同步 
机 制 及 传送 。 

协议 需要 支持 定向 短波 的 初始 化 传送 ， 以 便 激活 接收 端 和 发 送 端 ， 来 调整 到 
同一 直线 上 达到 最 优 的 传送 路 径 。 
8.2.6.4 ASoC 网 络 

在 很 多 情况 下 ， 多 个 ASoC 组 成 一 个 网 络 ， 中 间 经 过 多 个 节点 把 接收 端 和 
发 送 端 连接 到 一 起 。 对 于 这 样 的 系统 ， 为 了 实现 可 连接 ， 节 点 之 间 的 距离 有 一 
个 最 大 的 上 限 。 这 个 最 大 上 限 与 路 径 损 失 因 素 有 关 。 对 于 RF， 智 能 微 侍 做 的 
实验 证 明 ， 随 着 nn 从 2 增加 到 4， 这 个 最 大 的 上 限 距 离 会 从 1km 缩短 为 10m。 
还 有 很 重要 的 一 点 ， 随 着 数据 位 在 网 络 中 的 传输 会 有 同步 开销 (有 时 会 很 
大 ) 。 时 间 和 空间 的 同步 需要 适 配 和 发 送 的 开销 。 仅 对 于 时 间 同 步 ， 每 条 信息 
大 约 需要 100bit。 理 想 情况 下 ， 系 统 应 该 具有 数量 少 但 比较 长 的 信息 来 最 小 化 
开销 。 
挑战 

通信 技术 需要 最 小 化 同步 开销 (包括 时 间 和 空间 )。 

为 了 利用 短 消息 进行 有 效 的 通信 ， 至 少 要 把 同步 开销 减少 到 大 约 10s 的 位 
传输 。 


8.2.7 IER 


8.2.7.1 视频 

视频 和 动态 传感器 一 般 由 光敏 二 极 管 阵列 组 成 ， 阵 列 大 小 从 64 x 64 到 4000 x 
4000 甚至 更 大 "…” 。 每 一 个 二 极 管 代表 图 片 中 的 一 个 像素 (针对 黑白 电子 图 片 ) 。 
对 于 彩色 和 多 谱 图 片 ， 需 要 三 个 甚至 更 多 个 二 极 管 来 代表 一 个 像素 。 为 了 节省 功 
耗 和 减少 状态 的 转换 ，ASoC 实现 视频 处 理 器 时 对 于 阵列 中 的 每 一 个 像素 可 能 只 











1CHz 的 RF [63, 181] 
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用 一 个 二 极 管 单元 。 

对 于 其 他 的 图 片 识 别 和 运动 侦查 识别 ， 非 常 有 必要 找到 与 参考 图 片 一 致 的 地 
方 或 者 图 片 中 的 某 一 帧 块 相对 于 前 一 张 图 片 的 运动 方向 '“]。 在 两 张 图 片 中 适 配 
出 相同 的 场景 或 轮廓 需要 把 图 片 分 割 成 不 同 的 帧 块 。 然 后 逐 块 地 与 参考 图 片 或 前 
一 张 图 片 进行 螺旋 式 的 比较 。 每 一 个 比较 包括 计算 绝对 差 之 和 (Sum of Absolute 
Difference，SAD) 指数 。 当 具有 最 小 SAD 指数 的 图 片 被 找到 ， 识 别 就 结束 。 但 
是 图 片 的 识别 应 该 在 毫秒 级 ， 对 于 视频 传感器 来 说 ， 挑 战 就 在 于 要 满足 相关 快速 
移动 目标 的 计算 需求 ( 见 图 8.7)。 


目标 区 域 有 颜色 (RGB 到 HIS) 

128x64 像 素 阵 列 

用 SAD 阵 列 描 匹 配 32 个 参考 模 影像 阵列 
SR (每 块 432bit) 


30f/s， 消 耗 1xW 能 量 


| 





模 

块 

pe 

配 

| ssm | 
图 8.7 视觉 处 理 
很 显然 ， 图 片 传感器 可 以 集成 到 ASoC 中 ， 利 用 光学 把 不 同 的 对 象 集中 成 不 

同 的 光束 可 以 改善 性 能 。 
8.2.7.2 音频 


如 上 所 述 ， 硅 晶体 的 压 电 效应 ， 可 以 用 来 记录 声音 ， 这 是 很 多 声音 识别 系统 
和 扩 音 系统 的 基础 。 另 外 ， 对 于 某 些 a ; 
特殊 的 应 用 ， 如 助听器 ， 有 时 候 更 重 
要 的 是 模拟 耳 和 打 的 功能 。 很 多 耳蜗 片 
上 系统 已 经 被 实现 ， 通 过 使 用 一 串 低 
通 的 滤波 器 仿真 耳蜗 的 功能 。 在 一 个 
ERA PO! ，360 个 由 双向 低 
通 滤波 器 组 成 的 单元 排 成 一 个 阵列 。 
当 语音 识别 需要 的 时 候 ， 耳 蜗 模 式 会 
被 选择 : 它们 组 成 听觉 系统 的 前 端 信 
号 处 理 部 分 ， 分 割 出 声波 并 转换 成 耳 
打 能 识别 的 频率 范围 ( 见 图 8. 8 ) 。 

由 于 可 听见 的 声音 频率 相对 比较 图 8.8 音频 处 理 (图 片 来 自 维基 百科 ) 
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低 ， 所 以 对 于 ASoC 几乎 没有 实时 的 限制 。 
8.2.8 动力 、 飞 行 及 果 蝇 


当然 ， 最 终 的 ASoC 不 但 可 以 移动 还 可 以 飞行 。 每 次 仅 0.2g 的 载重 需求 ， 
对 于 具有 MEMS 的 ASoC 来 说 应 该 问题 不 大 。 利 用 MEMS 和 纳米 发 动机 可 以 在 表面 
上 固定 和 移动 ASoC。 在 表面 上 移动 需要 的 能 量 ， 只 是 启动 (加速) 和 克服 摩擦 力 
所 需 的 能 量 。1J 的 能 量 转化 成 10 erg9 的 功 。1erg 是 移动 lem 重 le 的 物体 所 需要 
的 能 量 。 所 以 ， 较 低频 率 ( 低 于 1% 的 占 空 比 ) 的 慢 运动 (大 约 1 ~2cm/s) 不 
会 导致 重大 的 能 量 消耗 。 

飞行 的 动力 系统 是 目前 最 复杂 的 。 已 经 有 很 多 针对 小 型 自动 飞行 器 的 动力 研 
FE), KAM ASC 来 说 有 许多 挑战 : 功 耗 、 
视觉 识别 ( 避 开 障碍 物 )、 环 境 ( 风 等 ) 及 通 
信 。 虽 然 可 飞 的 ASoC WR, (AIPA BE 
和 任何 小 果 晶 一 样 具 有 相同 的 可 行 性 "™*1。 

非常 有 趣 的 是 ， 这 里 介绍 的 高 要 求 的 
ASoC ， 与 像 果 蝇 这 样 的 生物 来 比 (JILE 8.9), 
还 是 显得 非常 保守 的 。 果 蝇 一 般 长 2. Smm， 具 
有 2mm 的 体积 ， 体 重 不 超过 20mg， 通 常 只 有 
1 个 月 的 生命 周期 。 

但 是 果 蝇 的 视觉 处 理 能 力 非常 惊人 。 它 有 
800 个 视觉 接收 单元 ， 每 个 单元 具有 8 个 紫外 线 的 彩色 感光 器 (每 个 感光 器 使 用 
200 000 神经 元 ， 总 共 约 有 100 万 个 神经 元 ) 。 据 估计 ， 它 的 视觉 系统 功能 比 人 类 
的 强 10 倍 。 再 加 上 嗅觉 、 听 觉 、 学 习 / 记 忆 ， 以 及 与 其 他 节点 (R) 的 通信 ， 
它 简直 是 一 个 完美 的 ASoC。 它 的 飞行 能 力 可 以 进一步 描述 成 : 翅膀 每 秒 可 振动 
220 次 ， 每 秒 可 飞行 10cm， 可 以 在 50ms 内 旋转 90°。 它 的 能 量 来 自 腐烂 的 植物 
果实 。 

现在 已 经 有 关于 研制 具有 控制 系统 的 机 器 苍蝇 来 模拟 真实 苍蝇 的 提 
WP) 。 很 明显 ， 这 里 介绍 的 基于 硅 的 ASoC 设计 者 还 有 很 多 地 方 需要 从 果 蝇 
身上 学 习 。 
挑战 

传感器 的 小 型 化 及 与 测量 温度 、 拉 力 、 移 动 和 压力 的 传感器 一 体 化 。 

目前 ， 都 假设 这 些 基 本 单元 都 在 片 外 ， 而 且 比 较 大 。 问 题 在 于 如 何 把 它们 小 
型 化 并 集成 到 ASoC 中 。 





图 8.9 RiR (图片 来 自 维基 百科 ) 


© erg: 尔格 ，lerg =10-?J。 
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8.3 未 来 的 设计 流程 : 自我 优化 和 自我 验证 


8.3.1 动机 


本 章 剩 下 的 部 分 介绍 改进 包括 ASoC 在 内 的 高 级 SoC 的 设计 方法 。 

好 的 设计 是 非常 有 效 的 ， 而 且 能 满足 需求 的 。 通 过 优化 提高 效率 ， 同 时 要 通 
过 验证 来 证 明 需 求 被 满足 。 不 幸 的 是 ， 现 有 的 很 多 设计 要 么 没有 效率 ， 要 么 不 正 
确 ， 甚 至 是 既 没有 效率 也 不 正确 。 

优化 和 验证 在 设计 的 所 有 抽象 级 别 中 都 被 认为 是 非常 重要 的 。 最 近 ITRS 把 
“成 本 驱动 的 设计 优化 ”和 “验证 和 测试 ” 列 为 设计 中 三 大 挑战 之 中 的 两 个 ， 剩 
下 的 一 个 是 “ 复 用 ”。 

未 来 如 何 满 足 这 三 大 挑战 呢 ? 假如 在 设计 中 用 到 的 结构 模块 具有 自我 优化 和 
验证 的 能 力 。 那 么 一 个 新 的 设计 可 以 通过 以 下 步骤 完成 : 

1. 抽取 出 设计 所 需要 的 具体 属性 ， 来 定义 具体 的 需求 ， 如 功能 、 准 确 度 、 
功 耗 及 倾向 的 具体 技术 。 

2. 开发 或 选择 一 种 能 满足 需求 的 架构 ， 并 研究 针对 具体 结构 模块 的 实例 。 

3. 首先 确定 现 有 的 模块 是 否 能 满足 需求 ; 如 果 不 能 ， 要 么 开始 一 个 新 的 研究 ， 
要 么 开发 可 优化 的 并 且 可 验证 的 结构 模块 ， 或 者 是 把 需求 调整 成 可 以 实现 的 功能 。 

4. 在 确认 经 过 优化 和 验证 后 的 设计 能 满足 需求 以 后 ， 规 划 优 化 和 验证 的 步 
又， 来 确保 设计 能 实现 自我 优化 和 自我 验证 的 功能 。 

5. 一 般 化 具体 的 设计 和 相应 的 自我 优化 和 自我 验证 的 能 力 ， 来 增加 它 的 适 
用 性 和 可 复 用 性 。 

核心 的 理念 就 是 在 设计 的 过 程 中 保证 可 以 自我 优化 和 自我 验证 : 从 具有 这 种 
特性 的 组 件 开 始 ， 最 后 综合 成 的 设计 也 具有 自我 优化 和 自我 验证 的 特性 。 下 面 将 
会 更 多 地 介绍 这 种 方法 的 具体 细节 。 


8.3.2 概述 


通过 优化 可 以 把 显著 (obvious) 但 无 效 的 设计 改 成 有 效 但 不 再 显著 的 设计 。 
然后 通过 验证 可 以 证 明 ， 如 优化 保留 了 满足 前 提 条 件 的 功能 行为 。 在 设计 中 常 犯 
的 一 个 错误 是 在 优化 过 程 中 忽略 了 前 提 条 件 。 验 证 还 可 以 用 来 检验 设计 是 否 具有 
满足 相关 标准 的 具体 特性 ， 如 安全 性 和 保密 性 。 

当 优化 和 验证 与 通用 设计 结合 时 ， 一 般 通过 三 种 主要 途径 来 支持 复 用 。 第 
一 ， 经 过 优化 之 后 的 通用 设计 ， 提 供 具 体 的 细节 介绍 ， 使 得 设计 者 能 关注 现 有 的 
优化 选项 及 他 们 的 效果 。 第 二 ， 通 用 设计 提供 多 个 层面 的 设计 说 明 ， 从 算法 、 结 
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构 到 具体 的 技术 细节 。 第 三 ， 验 证 过 的 优化 流程 ， 增 强 了 原 设 计 的 正确 性 。 在 设 
计 被 复 用 之 前 ， 必 须 先 保证 正确 性 。 一 旦 出 现 错误 ， 就 可 以 确定 到 底 是 验证 本 身 
的 错误 ， 还 是 使 用 设计 的 环境 超出 了 验证 的 有 效 范围 。 

要 以 更 广义 的 角度 来 看 待 自 我 优化 和 自我 验证 。 一 种 方法 是 规划 一 个 设计 
(可 以 包括 硬件 和 软件 ) 和 具体 实现 应 该 具有 的 核心 属性 。 这 些 属性 包括 功能 的 
正确 性 、 类 型 的 通用 性 、 计 算 上 溢 和 下 溢 异 常 的 避免 等 。 描 述 可 以 包括 借助 特殊 
工具 在 本 地 或 远程 对 设计 进行 优化 和 验证 的 具体 方法 。 很 多 方法 都 可 以 借助 有 效 
的 上 下 文 信息 而 应 用 到 自我 优化 和 自我 验证 中 ， 如 脚本 驱动 的 技巧 和 机 器 学 习 的 
步骤 。 设 计 者 可 以 致力 于 优化 和 验证 特殊 的 部 分 ， 如 想 通 过 最 小 的 设计 来 计算 
AES， 用 512 位 的 密 钥 在 500MHz 的 频率 下 加 密 128 位 的 数据 流 。 

布局 前 后 的 上 下 文 如 表 8.5 所 示 ， 推 荐 的 设计 流程 在 发 布 前 后 都 包含 自我 优 
化 和 自我 验证 。 发 布 前 ， 编 辑 生成 一 个 初始 化 的 实现 和 它 的 特征 描述 。 特 征 描述 
包括 设计 已 有 的 优化 和 验证 是 如 何 进行 的 ， 还 包括 进一步 优化 和 验证 的 因素 ; 这 
些 优化 的 因素 可 以 在 系统 调度 之 后 运行 时 进行 ， 来 改善 有 效 性 和 正确 性 。 


表 8.5 布局 前 后 的 上 下 文 





ome 
焦点 上 下 文 设计 工具 环境 ， 静 态 设计 效率 的 操作 环境 ， 动 态 
优化 、 验 证 根据 条 件 优化 

规划 规划 如 何 满足 布局 后 的 目标 
外 部 控制 AI 


自我 优化 要 基于 上 下 文 进行 。 在 发 布 之 前 ， 上 下 文 是 设计 工具 的 环境 ; 通过 
制定 可 以 改变 设计 工具 的 参数 来 设置 上 下 文 。 另 外 自动 化 能 力 ， 自 我 改善 的 同 
时 ， 还 要 努力 计算 出 如 何 组 合 组 件 和 工具 得 到 最 能 满足 需求 的 设计 ， 设 计 者 可 以 
随意 地 控制 工具 来 确保 这 种 自我 优化 和 自我 验证 在 正确 的 方向 上 进行 。 相 比 之 
下 ,在 发 布 之 后 这 种 额外 的 控制 就 会 少 很 多 ， 如 当 设计 是 飞行 器 的 一 部 分 时 。 总 
之 ， 发 布 前 的 任务 非常 具有 战略 意义 ， 要 能 提前 预测 出 在 运行 过 程 中 可 能 发 生 的 
事故 ; 发 布 之 后 的 任务 主要 在 于 战术 ， 必 须要 在 可 行 的 行为 集中 选择 合适 的 操作 
来 应 对 不 断 变化 的 运行 时 的 上 下 文 。 

这 个 方法 主要 有 三 个 好 处 。 第 一 ， 通 过 自动 化 验证 过 程 ， 可 以 提高 对 正确 性 
和 可 靠 性 的 信心 。 第 二 ， 通 过 自动 化 优化 过 程 和 扩展 运行 时 系统 的 自 适应 性 可 以 改 
善 设 计 的 有 效 性 。 第 三 ， 通 过 使 能 设计 的 复 用 、 优 化 和 验证 ， 可 以 提升 生产 率 。 

但 是 ， 采 用 系统 的 设计 复 用 ， 特 别 是 当 包含 自我 优化 和 自我 验证 时 ， 比 只 做 
一 次 性 的 设计 需要 更 多 的 初始 化 工作 。 设 计 者 需要 妥善 组 织 、 生 成 并 记录 设计 的 
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细节 ， 直 到 复 用 值得 花 时 间 做 为 止 ( 见 图 8. 10) 。 此 外 ， 在 发 布 之 后 需要 很 大 的 
开销 来 支持 优化 和 验证 。 但 是 ， 从 长 远 来 看 ， 在 可 复 用 和 适用 性 设计 方面 的 努力 
都 会 在 设计 的 有 效 性 和 生产 率 上 获得 很 大 的 收益 。 


累计 设计 工作 量 





新 设计 的 数量 
图 8.10 设计 工作 : 复 用 的 效果 


8.3.3 部 署 前 


在 部 署 之 前 ， 设 计 者 需要 有 预期 设计 的 特征 描述 ， 并 且 有 构建 这 些 建 模块 
和 它们 特性 的 途径 。 任 务 是 开发 一 种 架构 来 定义 被 选 定 的 模块 如 何 被 实例 化 并 
组 合生 成 一 个 初始 设计 ， 不 但 要 满足 需求 ， 同 时 还 能 在 部 署 后 的 运行 过 程 中 被 
进一步 地 优化 。 必 须要 仔细 认真 地 规划 部 署 后 的 优化 和 验证 ,来 避免 不 可 挽回 
的 代价 。 

假设 在 部 署 前 编译 时 ， 有 以 下 情况 : 

1. 现 有 的 计算 资源 足够 支持 设计 和 工具 ; 

2. 但 是 ， 可 做 的 优化 和 验证 却 有 限 。 例 如 ， 一 些 对 优化 有 用 的 数据 只 有 在 
运行 时 才 知 道 ， 而 且 如 果 计 算出 这 些 数据 所 有 可 能 的 值 也 不 现实 。 
挑战 

获取 设计 和 上 下 文 的 组 合 描 述 在 不 同 层次 的 抽象 ， 包 括 优 化 和 验证 的 特性 。 

组 合 是 一 种 非常 方便 的 复 用 方法 ,但 是 它 并 不 是 最 直接 的 方法 ,不 同 于 采用 
像 数 据 流 这 样 的 基本 的 通信 方法 。 尤 其 是 在 组 合 异 构 组 件 之 前 ， 可 能 需要 转换 来 
支持 通用 通信 和 同步 基础 设施 。 系 统 级 的 设计 创作 非常 具有 挑战 性 ， 因 为 不 但 设 
计 本 身 是 组 合 的 ， 而 且 对 应 的 优化 和 验证 也 同样 是 组 合 的 。 

举 一 个 简单 的 例子 ,假设 位 加 法 器 的 两 个 操作 数 中 的 一 个 是 常数 ， 它 的 值 
在 部 署 之 后 运行 时 才 知 道 ， 想 利用 常数 传播 来 优化 这 个 加 法 器 。 但 是 ， 要 提前 计 
算出 所 有 2" 个 可 能 的 配置 是 很 不 现实 的 ， 除 非 n 的 数值 比较 小 。 幸 运 的 是 ， 如 
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果 针 对 位 片 架 构 ， 那 么 就 足够 提前 计算 出 n 位 中 每 位 仅 有 的 2 个 配置 ， 在 运行 时 
如 果 已 经 知道 相应 的 值 ， 那 么 合适 的 配置 就 可 以 在 正确 的 时 间 放 置 到 正确 的 位 
m p] z 

设计 者 可 能 需要 优先 排列 或 修改 相应 的 需求 直到 找到 可 行 的 实现 。 例 如 ， 当 
需要 最 优 的 有 效 功 耗 设计 来 满足 特殊 的 定时 约束 或 者 用 最 小 的 设计 来 满足 数字 精 
度 。 其 他 的 一 些 因 素 ， 如 安全 性 和 保密 性 ， 可 能 同样 需要 考虑 到 。 

假设 部 署 前 优化 是 为 了 在 将 来 部 署 之 后 的 适当 情况 下 进一步 进行 优化 ， 以 下 
是 一 些 在 部 署 之 前 可 以 做 的 优化 的 例子 : 

1. 选择 一 个 可 以 实现 设 






计 的 电路 技术 。 比 较 通 用 的 ane Eg 

两 种 技术 是 ASIC 和 FPGA。 _ ee 

技术 的 选择 在 于 设计 量 和 灵 p PO ee 
et 基于 标准 单元 的 


活性 ( 见 图 8.11)。 例 如 , Æ ¥ 
F (Cell) AY ASIC 更 倾向 于 . 
减少 设计 量 ， 因 为 它们 有 大 |7 
量 不 可 重 现 的 设计 成 本 。 而 
FPCA 是 另 一 种 围绕 结构 性 的 
ASIC 的 方法 。ASIC 技术 可 以 体积 
用 来 扩展 常用 指令 ”和 可 配 图 8.11 FPGA 和 ASIC 技术 的 成 本 和 体积 对 比 
置 的 缓存 "来 实现 自 适应 指 
令 的 处 理 器 ， 所 有 的 可 配置 选项 必须 在 制造 之 前 是 可 知 的 。 自 适应 指令 的 处 理 器 
也 可 以 基于 FPGA HEARST) ， 可 以 使 它们 以 速度 和 面积 作为 开销 来 支持 可 
配置 的 同时 具有 更 多 的 灵活 性 。 

2. 为 可 配置 单元 选择 粒度 和 同步 规则 。 当 前 的 商用 FPGA 都 是 具有 一 个 或 
多 个 全 局 时 钟 的 细 粒 度 设备 。 但 是 也 出 现 了 一 些 其 他 的 结构 ， 如 包含 多 位 ALU 
组 成 的 可 以 并 行 执行 阵列 的 粗 粒 度 设备 ”1 和 基于 同步 技术 来 提高 扩展 性 的 结 
构 '”。 一 般 情况 下 ， 细 粒度 设备 具有 更 好 地 通过 定制 来 很 好 地 满足 需求 的 机 会 。 
例如 ， 如 果 需 要 一 个 9 位 的 ALU，FPGA 中 9 个 位 级 的 单元 可 以 通过 配置 来 组 成 
9 位 的 ALU。 对 于 包含 8 位 ALU 的 粗 粒度 设备 ， 则 需要 两 个 这 样 的 单元 。 但 是 ， 
细 粒 度 设备 在 速度 、 面 积 和 功 耗 等 方面 具有 更 大 的 开销 ， 因 为 细 粒 度 设 备 具有 更 
多 可 配置 的 资源 。 相 反 ， 粗 粒度 设备 由 于 可 扩展 性 差 ， 开 销 也 小 。 

3. 对 于 支持 传统 指令 的 指令 处 理 器 多 ,”] ， 通 过 选择 传统 指令 的 粒度 可 在 速 
度 和 面积 之 间 达 到 比较 好 平衡 。 粗 粒度 的 传统 指令 比 细 粒 度 的 速度 快 但 是 需要 更 
多 的 面积 。 例 如 ， 如 果 使 用 (a) 一 条 粗 粒度 的 传统 指令 或 者 (b) 50 条 细 粒 度 
的 传统 指令 ， 可 达到 相同 的 效果 。 那 么 ，(a) 需要 更 少 的 指令 预 取 / 译 码 操作 ， 
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性 能 一 般 比 较 快 ， 而 且 有 更 多 机 会 来 定制 传统 指令 来 实现 具体 的 需求 。 但 是 ， 由 
于 指令 粒度 越 大 ， 专 用 性 越 强 ， 粗 粒度 传统 指令 的 复 用 机 会 也 就 越 少 。 

4. 通过 改变 处 理 单元 的 数量 、 流 水 线 的 级 别 及 每 个 处 理 单元 之 间 的 任务 共 
享 度 来 改变 并 行 度 和 软 硬 件 的 分 区 ， 进 而 来 匹配 性 能 或 体积 的 限制 。 同 样 这 里 也 
要 考虑 到 如 速度 、 控 制 逻辑 的 大 小 及 片上 存储 等 多 种 因素 ， 以 及 连接 存储 、 传 感 
器 等 其 他 单元 的 接口 。 下 面 举 一 个 例子 ， 针 对 归纳 逻辑 编程 应 用 而 定制 的 多 核 架 
构 FPGA 的 加 速 比 随 着 处 理 器 核 数 量 的 变化 而 变化 〈 见 图 8. 12) 。 由 于 FPGA 的 
片上 存储 是 固定 的 ， 增 加 处 理 器 核 的 数量 就 会 相应 减少 每 个 核 的 缓存 存储 ; 所 有 
线性 加 速 只 能 到 16 个 核 。 在 这 个 最 优点 之 后 ， 再 增加 核 的 数量 就 会 降低 加 速 比 ， 
因为 每 个 核 的 缓存 已 经 变 得 太 少 。 

首 级 缓存 尺寸 


1000 


加 速 比 
3 
RU RAR 





5 10 15 20 25 30 
处 理 器 数量 


图 8. 12 基于 Arvand 多 核 处 理 器 系统 的 XC2V6000 FPGA 上 
加 速 比 和 累计 缺失 率 随 着 处 理 器 核 数量 的 变化 


5. 选择 数据 的 表示 形式 和 对 应 的 操作 。 在 多 种 算术 表示 方式 中 采用 平衡 设 
计 技 术 非 常 流行 。 例 如 ， 宛 余 算 法 更 倾向 于 取得 更 快 的 设计 ， 因 为 不 需要 增加 面积 
来 取得 进位 链 。 由 于 细 粒 度 的 FPGA 支持 任何 字 长 度 的 设计 ， 多 种 静态 和 动态 的 字 
长 优化 算法 ， 可 以 支持 在 性 能 、 面 积 、 功 耗 和 如 信和 号 -噪声 比 准确 度 等 方面 取得 最 
好 平衡 的 设计 ”' 。 同 时 也 要 考虑 支持 算术 上 溢 和 下 溢 异 常 的 模型 和 工具 ”) 。 

6. 在 物理 器 件 上 为 处 理 和 存储 单元 选择 布局 策略 ， 如 经 常 需要 交互 的 组 件 
紧 挨 着 放置 ， 来 改善 性 能 、 面 积 和 功 耗 。 可 以 通过 启发 式 合并 和 基于 搜索 的 自动 
调谐 器 ”来 生成 和 评估 不 同 的 实现 方式 实现 自动 优化 布局 ; 这 种 方法 需要 考虑 
多 种 结构 上 的 约束 ， 如 存在 嵌入 式 计算 或 存储 单元 。 

以 上 的 每 一 个 例子 都 有 通过 验证 来 获得 收益 的 方面 ， 从 高 级 编译 “| 到 扁平 化 
程序 (flattening procedure)" ”和 布局 策略 "“! 。 现 有 的 验证 平台 “使 得 应 用 的 验 


258 计算 机 系统 设计 : 片上 系统 


证 工具 一 致 化 ， 如 符号 化 仿真 器 、 模 型 检查 器 和 定理 证 明 器 。 这 些 平 台 表面 支持 复 
杂 设 计 自 我 验证 的 可 能 性 ， 但 是 还 需要 做 很 多 工作 来 证 明 设 计 能 利用 各 种 技术 和 能 
通过 多 层次 的 抽象 。 另 外 ， 这 些 平台 和 工具 很 多 可 以 通过 自动 调谐 来 获 益 "| 。 

部 署 前 一 个 重要 的 任务 是 规划 部 署 之 后 的 自我 优化 和 自我 验证 。 这 个 计划 要 
基于 部 署 之 后 具体 有 多 少 有 效 的 运行 时 信息 来 制定 。 例 如 ， 如 果 某 个 设计 的 输入 
是 不 变 的 ， 这 些 不 变 的 输入 可 以 由 设计 通过 布尔 优化 和 重 定时 传播 。 这 些 技术 可 
以 被 扩展 应 用 到 覆盖 定位 策略 ， 来 产生 紧凑 布局 "'% 的 参数 描述 。 另 外 一 种 可 
能 ， 是 选择 适当 的 结构 模板 来 促进 运行 时 资源 的 整合 。 

部 署 之 前 ， 如 果 验 证 已 经 覆盖 了 优化 和 所 有 其 他 的 部 署 后 的 操作 ， 那 么 部 署 
之 后 就 没有 必要 进行 进一步 的 验证 。 但 是 ， 如 果 这 些 优 化 和 验证 虽然 有 效 ， 但 是 
并 不 被 某 一 特定 的 设计 支持 ， 那 么 这 些 优 化 和 验证 可 能 很 少 会 发 生 ， 所 以 这 些 被 
优化 和 验证 过 的 设计 会 在 合适 的 时 间 被 安全 地 下 载 到 运行 中 的 系统 ， 尽 量 减少 中 
断 系统 的 服务 。 
挑战 

开发 各 种 技术 和 工具 来 指定 和 分 析 自 我 优化 和 自我 验证 系统 的 需求 ， 以 及 自 
动 优 化 和 验证 操作 的 方法 和 数据 的 表示 法 。 

相关 优化 技术 包括 调度 、 重 定时 和 字 长 优化 。 另 外 ， 相 关 验 证 技术 包括 程序 
分 析 、 模 型 检查 和 定理 证 明 。 它 们 有 效 的 优化 组 合 ， 与 探索 合适 的 计算 模式 及 相 
关 影 响 的 新 方法 ， 可 以 使 得 有 效 设 计 事半功倍 。 


8.3.4 ”部署 后 


优化 的 目的 是 调整 设计 ， 使 其 能 最 好 地 满足 需求 。 但 是 ， 越 来 越 多 的 需求 在 
部 署 使 用 之 后 不 再 与 部 署 之 前 一 样 ， 如 有 新 的 标准 需要 满足 或 者 新 的 错误 需要 处 
理 。 所 以 需要 可 升级 的 设计 来 支持 优化 以 便 满足 不 断 增长 的 需求 。 除 了 升级 以 
外 ， 部 署 之 后 的 优化 同样 要 满足 资源 共享 、 错 误 移 除 及 适应 运行 时 系统 的 具体 要 
求 ， 如 基于 噪声 变化 选择 合适 的 纠 错 代码 。 

很 明显 ， 任 何 可 编程 设备 都 要 在 部 署 之 后 可 以 被 优化 。 就 像 前 面 描述 的 ， 细 
粒度 设备 比 粗 粒度 设备 具有 更 多 机 会 来 调整 自己 ， 当 然 开 销 也 较 大 。 

接 下 来 重点 介绍 两 种 部 署 后 优化 的 方法 : 条 件 适 配 优化 和 自主 控制 优化 。 这 
两 种 情况 ， 任 何不 可 信 的 部 署 后 优化 都 应 该 被 轻 量 级 的 验证 来 检测 出 来 ; 可 能 用 
到 的 技术 包括 带 证 明 的 代码 检测 器 ( proof-carrying code checker)! 。 这 些 检 查 
者 支持 的 参数 可 以 俘获 特殊 操作 的 安全 状况 。 有 一 个 证 明 规 则 的 集合 可 以 被 用 来 
建立 可 接受 的 方法 来 证 明 安全 状况 。 

正如 前 面 提 到 的 ， 是 否 需要 重负 荷 优 化 和 验证 ， 对 于 有 些 任 务 是 可 能 需要 的 ， 
这 些 任务 需要 通过 独立 可 信 的 代理 远程 执行 并 通过 安全 路 径 下 载 到 可 用 的 设备 中 ， 
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基于 数字 签名 可 能 可 以 识别 发 送 者 身份 。 另 外 ， 通 过 超时 设备 来 证 明 自 我 优化 和 自 
我 验证 程序 的 无 休止 性 是 需要 非常 谨慎 的 ， 而 且 在 完成 之 前 也 不 会 产生 结果 。 

除了 拥有 超时 设备 ， 部 署 之 后 的 验证 在 处 理 其 他 形式 的 异常 方面 是 非常 有 效 
的 ， 如 验证 失败 或 者 算术 错误 。 应 该 有 错误 恢复 程序 和 能 决定 是 否 避 免 或 纠正 未 
来 类 似 错误 的 技术 。 对 于 有 些 应 用 ， 片 上 调试 工具 5 非常 有 用 ; 这 些 工具 可 以 
自己 适 配 来 满足 不 同 应 用 操作 和 缓存 的 需求 。 
8. 3.4.1 条 件 适 配 优化 

一 种 在 不 断 变 化 的 执行 环境 中 基于 部 署 后 优化 来 获取 收益 的 方法 是 ， 不 断 地 
适 配 变化 的 条 件 ， 如 温度 、 噪 声 和 流程 变化 等 。 例 如 ， 动 态 重 配置 维特 比 译 码 器 
的 纠 错 卷 积 码 来 适 配 信 道 噪声 条 件 的 变化 ， 可 以 降低 70 多 左右 的 译 码 功 耗 开销 ， 
并 且 不 降低 译 码 的 准确 度 ， 这 一 点 已 经 被 证 明 5 1 。 

图 8. 13 给 出 了 SPECviewperf benchmark 9 工作 指标 上 限 的 最 优 配置 调度 ， 包 
含 了 一 个 重 配 置 时 间 表 最 优 适 配 SPECviewperft221 测试 程序 的 阶段 行为 。 一 个 程 
序 阶段 的 工作 集 保 持 恒定 的 一 个 间隔 。 其 目的 是 支持 一 种 动态 优化 规则 ， 利 用 程 
序 间 隔 信息 在 运行 时 优化 设计 。 这 种 规则 包括 一 个 硬件 编译 体系 来 生成 配置 增强 
程序 分 支 的 准确 性 1 和 其 他 不 同 执行 阶段 的 优化 机 会 ， 以 及 一 个 运行 时 系统 来 
管理 配置 的 交互 以 此 来 维护 阶段 转变 之 间 的 优化 。 具 体 思路 是 ， 在 一 个 特定 的 程 
序 段 中 ， 加 快 经 常用 到 的 硬件 分 支 的 速度 ; 当 检 测 到 下 一 个 阶段 的 开始 时 ， 重 新 
配置 硬件 来 优化 这 个 新 的 程序 阶段 。 
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图 8. 13 SPECviewperf benchmark 9 工作 指标 上 限 的 最 优 配置 调度 
(虚线 和 实 线 分 别 表示 内 部 和 外 部 循环 时 间 的 可 能 拐点 ) 


为 了 利用 程序 阶段 的 行为 进一步 优化 性 能 ， 部 署 后 的 优化 仍然 有 优化 功 耗 开 
销 的 潜力 。 图 8. 14 给 出 了 功 耗 开销 随 着 时 间 的 一 种 可 能 变化 。 与 静态 设计 相 比 ， 
部 署 后 可 优化 的 设计 ， 可 以 根据 特定 情况 配置 成 最 低 功 耗 开 销 的 设计 ， 即 使 在 设 
备 被 重 配 时 有 一 个 功 耗 峰值 。 相 关 技 术 已 经 被 应 用 到 FPGA 中 ， 来 动态 校正 他 们 
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运行 时 的 时 钟 速度 ”1 或 者 是 进行 动态 的 电压 调节 '” ; 相关 方法 已 经 在 微 架构 中 
有 应 用 。 这 些 技术 还 可 以 从 部 署 之 后 的 运行 时 条 件 中 获 益 ， 就 像 在 深 亚 微 技 
术 中 适应 处 理 变化 的 影响 一 样 。 






功 耗 


静态 设计 


可 配置 设计 


时 间 
图 8.14 功 耗 开销 随 着 时 间 的 一 种 可 能 变化 (两 个 段 时 间 的 
高 功 耗 表示 在 运行 优化 过 程 中 的 两 个 配置 的 功 耗 ) 


一 种 支持 条 件 适 配 优化 的 有 效 方法 是 ， 把 特定 领域 中 的 定制 整合 到 一 个 高 性 
能 虚拟 机 上 ， 这 样 对 虚拟 机 来 说 部 署 后 设备 的 静态 和 动态 信息 都 有 效 。 这 些 信 息 
可 以 在 多 种 条 件 下 应 用 到 自我 优化 和 自我 验证 中 。 例 如 ， 基 于 库 代 码 的 特定 属性 
和 部 署 后 操作 的 上 下 文 来 优化 硬件 和 软件 库 的 使 用 路 径 。 

8. 3.4.2 自主 控制 优化 

“自主 计算 ”已 经 被 应 用 到 系统 中 用 来 支持 自主 管理 、 自 主 优化 甚至 自我 
修复 和 自我 保护 。 它 受到 计算 机 系统 不 断 上 升 的 复杂 性 所 驱动 ， 需 要 很 努力 地 来 
安装 、 配 置 、 调 谐 和 维护 。 相 比 之 下 ， 侧 重 于 设计 处 理 来 支持 并 获 益 于 自我 优化 
和 自我 验证 的 组 件 。 

一 种 针对 自我 优化 的 改进 后 的 控制 策略 可 以 基于 事件 驱动 ， 在 隐藏 配置 延迟 
的 同时 ， 针 对 运行 时 条 件 来 生成 软件 代码 和 硬件 配置 信息 以 便 及 时 重 配 置 。 一 个 
方向 是 基于 组 件 的 元 数据 (metadata) 描述 ,为 具有 适应 能 力 的 组 件 去 发 展 
理论 和 进行 实践 ， 包 括 软件 单元 和 硬件 单元 。 这 些 描述 说 明了 现 有 的 优化 ， 并 提 
供 一 个 性 能 模型 和 一 个 利用 组 件 的 元 数据 ， 针 对 给 定 上 下 文 来 找到 并 配置 最 适宜 
实现 的 元 程序 。 这 个 工作 可 以 与 当前 可 定制 的 硬件 编译 技术 合并 在 一 起 '“} ， 这 
样 就 可 以 在 基于 契约 的 方法 中 使 用 元 数据 的 描述 ， 与 研究 具有 适应 能 力 的 软件 组 
件 一 样 。 

另外 一 个 方向 是 研究 所 需 自主 行为 的 高 级 描述 ， 以 及 这 些 描述 如 何 被 用 来 生 
成 活路 的 计划 。 一 个 活路 的 计划 通过 为 每 个 状态 的 每 个 目标 分 配 一 个 行为 来 适应 
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变化 的 环境 ， 通 过 这 个 行为 可 以 实现 相应 的 目标 。 动 态 重 配置 可 以 被 相应 的 
计划 来 驱动 ， 计 划 制 定 了 相关 配置 所 应 该 支持 的 属性 。 

对 于 自主 控制 优化 ， 其 他 有 希望 的 方向 包括 机 器 学 习 “" 、 归 纳 逻辑 程序 设 
计 "* 和 自我 组 织 的 特征 图 ””! 。 实 际 自我 适应 系统 的 例子 ， 如 那些 针对 航天 的 任 
(0) ， 同 样 应 该 被 研究 来 探索 它们 的 潜力 ， 以 便 扩展 使 用 性 和 推动 理论 的 发 
展 。 为 这 些 优 化 方法 找到 一 个 合适 的 可 证 实 的 概念 。 
挑战 

找到 发 布 前 后 在 协同 优化 和 协同 验证 之 间 提 供 最 优 分 块 的 策略 。 

在 发 布 之 前 完成 的 工作 越 多 ， 发 布 后 的 设计 针对 给 定 的 应 用 就 越 有 效 ， 虽 然 
会 损失 灵活 性 。 在 发 布 前 和 发 布 后 的 优化 和 验证 之 间 获 取 正 确 平衡 的 策略 非常 
有 用 。 


8.3.5 规划 和 挑战 


就 眼前 来 说 ， 要 理解 如 何 组 合 自我 优化 和 自我 验证 组 件 ， 以 使 得 最 终 的 混合 
设计 仍然 可 以 自我 优化 和 自我 验证 。 一 个 关键 问题 是 在 相关 设计 模型 和 模型 表示 
之 间 保 证 理论 和 实际 的 结合 ， 如 同 对 应 优化 和 验证 步骤 之 间 ， 在 语义 模型 和 不 同 
工具 接口 的 通用 性 之 间 保 证 一 致 性 。 

在 特定 的 应 用 领域 首先 开始 研究 自我 优化 和 自我 验证 设计 ， 看 起 来 是 一 个 不 
错 的 想法 。 从 这 些 研究 获取 经 验 ， 来 总 结 出 超越 特定 应 用 特性 的 自我 优化 和 自我 
验证 设计 的 范围 和 领域 的 基本 原理 和 理论 。 

另外 一 个 方向 是 研究 一 种 基于 平台 的 方法 来 发 展 自我 优化 和 自我 验证 系 
统 。 很 多 有 前 途 的 工作 '* 已 经 应 用 在 合并 复杂 设计 的 验证 工具 中 。 这 些 工作 
提供 了 一 个 基础 ， 基 于 此 可 以 进行 自我 优化 和 自我 验证 的 进一步 研究 。 开 放 的 
资源 库 使 得 设计 和 工具 可 在 不 同 设计 之 间 共 享 ， 这 是 非常 有 用 的 。 特 别 要 指出 
的 是 所 提出 的 这 个 方法 不 但 可 以 从 验证 过 的 软件 库 资源 中 收益 ， 同 时 也 对 库 做 
贡献 “”! ， 当 前 作为 英国 “Grand Challenge” 可 信 系统 升 级 项 目的 一 部 分 正在 被 
研究 。 

很 显然 ， 要 挖掘 出 自我 优化 和 自我 研究 的 潜力 还 有 很 多 研究 工作 要 做 。 要 加 
快 自我 优化 和 自我 验证 在 未 来 的 发 展 ， 需 要 在 多 个 领域 里 取得 进步 。 
挑战 

到 目前 为 止 ， 都 致力 于 探讨 如 何 设 计 一 个 能 自主 进行 操作 的 独立 单元 。 对 于 
一 个 由 自主 单元 组 成 的 网 络 ， 最 优 性 和 正确 性 的 标准 变 得 越 来 越 复杂 ， 特 别 是 当 
控制 系统 也 是 分 布 式 的 时 候 。 这 就 需要 在 独立 单元 的 最 优 性 和 正确 性 之 间 将 理论 
与 实践 相 结合 ， 以 及 将 网 络 作 为 一 个 整体 的 最 优 性 和 正确 性 之 间 的 理论 与 实践 相 
bse A 
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挑战 
如 果 可 复 用 组 件 的 质量 及 优化 和 验证 的 组 合 过 程 有 开放 的 标准 ， 复 用 设计 就 
可 以 得 到 广泛 的 应 用 。 这 些 标 准 覆 盖 了 验证 功能 和 性 能 的 方法 集合 ， 包 括 模 拟 、 
硬件 仿真 、 形 式 验证 及 不 同 层次 的 抽象 。 
挑战 

有 一 个 很 清晰 的 需求 ， 就 是 要 有 健全 的 基础 作为 基本 原则 ， 紧 密 结合 设计 开 
发 、 原 型 机 制造 和 测试 ， 进 行 有 效 的 自我 优化 和 自我 验证 的 设计 。 挑 战 是 在 改善 
灵活 性 的 同时 适应 性 会 提高 ， 但 也 将 优化 和 验证 复杂 化 。 


8.4 总 结 


基于 下 一 代 SoC 和 ASoC， 这 是 一 个 全 新 的 研究 领域 。 正 如 人 们 所 看 到 的 ， 
晶体 管 密度 的 改进 使 得 每 平方 厘米 可 以 集成 10 亿 只 晶体 管 。 如 此 巨大 的 计算 洪 
力 有 一 个 核心 限制 : 电能 。 这 在 体系 结构 领域 打开 了 一 个 新 方向 一 一 纳米 计算 。 
它 与 以 往 的 针对 超级 计算 机 的 工作 截然 不 同 ， 不 存在 竞争 。 这 个 领域 的 目标 是 在 
仅 为 现 有 功 耗 的 百 万 分 之 一 的 级 别 下 ， 研 究 高 性 能 的 算法 和 架构 方法 ， 同 时 释放 
芯片 额外 的 功 耗 开销 。 | 

对 于 完美 的 操作 ， 需 要 一 种 无 线 通 信 方 式 。 这 是 另外 一 个 非常 大 的 挑战 ， 特 
别 是 在 微 瓦 级 进行 功率 分 配 时 。RF 是 一 种 传统 的 方法 ， 一 些 激光 或 红外 线 技术 
也 许 会 提供 新 颖 的 解决 方法 。 

另外 ， 数 字 化 传感器 ， 甚 至 换 能 器 ， 都 存在 一 个 不 可 避免 的 挑战 一 要 将 多 
个 传感器 集成 到 一 个 无 颖 的 SoC 中 。 

本 章 还 规划 了 设计 的 前 景 ， 提 出 自我 优化 和 自我 验证 组 件 ， 来 处 理由 ITRS 
提出 的 设计 挑战 。 描 述 了 部 署 前 后 自我 优化 和 自我 验证 的 任务 ， 同 时 讨论 了 可 
能 的 收益 和 挑战 。 在 理论 和 实践 上 发 展 自我 优化 和 自我 验证 都 有 助 于 达到 研究 
目标 一 一 使 得 设计 者 能 更 快 地 完成 更 好 的 设计 。 

最 好 的 设计 要 能 够 预测 系统 的 复杂 性 ， 同 时 要 有 效 地 处 理 不 可 预测 的 因素 。 
纵 观 本 章 系统 复杂 性 包括 很 多 因素 : 组 件 设计 与 电源 、 设 计 工 具 、 验 证 与 测试 、 
安全 性 等 。 通 过 平衡 这 些 问题 来 定义 出 有 效 的 设计 。 

这 里 讨论 的 所 有 ASoC 组 件 最 终 要 整合 到 一 个 硅 片 上 ， 但 是 有 多 种 不 同 的 组 
合 方式 。 每 一 种 拥有 自己 系统 需求 的 组 合 ， 都 必须 通过 各 自 独立 的 组 件 来 优化 。 
设计 者 在 自我 优化 和 自我 验证 方法 的 帮助 下 ， 已 不 再 需要 关注 某 个 组 件 而 是 关注 
最 终 的 系统 。 最 终 他 们 成 为 了 系统 设计 师 。 





附录 ”处理 器 评估 工具 


假定 给 出 了 配置 复杂 的 处 理 器 结构 ， 在 没有 仿真 工具 或 预测 工具 帮助 下 ， 预 
测 其 性 能 或 芯片 面积 总 是 不 太 可 能 的 。 

SimpleScalar 工具 集 适 用 于 指令 处 理 器 的 设计 空间 探索 ， 较 新 版 已 能 支持 四 
种 处 理 器 架构 : Alpha, ARM, PISA (MIPS 的 变种 ) 和 x86, 

SimplrScalar 用 户 选择 Web 界面 如 图 A. 1 所 示 ， 图 A. 2、 图 A. 3 分 别 给 出 了 
不 同 的 一 级 缓存 (L1 cache) 和 不 同 的 传输 后 备 缓冲 器 (Translation Lookaside 
Buffer, TLB) 配置 情形 下 的 仿真 结果 。 


O PISA + math + sim-cache 

© ARM + fmath + sim-bpred + not-taken 

O ARM + fmath + sim-bpred + bimod with large table size 
O x86 + Ilong + sim-outorder + 2 i-ALU + 2 f-ALU 

O x86 + llong + sim-outorder + 6 i-ALU + 6 f-ALU 


(pion CEE 





图 A.1 用 户 选择 Web 界面 


该 SimpleScale Web 界面 为 用 户 提供 了 以 下 主要 功能 : 

启用 不 同 的 ISA， 如 PISA, ARM 和 x86, 

启用 不 同 的 基准 测试 程序 ， 如 match. c、fmatch. c 和 long. co 

”针对 各 种 处 理 器 信息 启用 不 同 的 SimpleScalar 模拟 器 。 

”向 Web 用 户 浏览 器 所 产生 的 图 提供 动态 和 实时 更 新 。 

如 果 想 从 SimpleScalar 的 Web 界面 产生 一 个 图 ， 首 先 需要 选择 架构 ; 然后 根 
据 需要 的 仿真 类 型 ， 选 择 相应 的 如 一 级 缓存 和 TLB 等 信息 选项 ; 最 后 ， 可 以 选 
择 模 拟 IPC 值 或 区 域 信息 。 

如 图 A. 2 所 示 ，x 轴 表 示 不 同 的 TLB 的 值 ，y 轴 表 示 不 同 的 仿真 结果 IPC 
值 。 如 图 A. 3 所 示 ， 图 中 每 一 点 表示 不 同一 级 缓存 配置 下 仿真 结果 IPC 值 。 
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